moea_joint
111年
[統計資訊] 統計學、巨量資料概論
第 49 題
強化學習(Reinforcement Learning)容易應用在遊戲,而較難應用在真實世界的主要原因,下列何者正確?
- A 產生序列過長,不易訓練
- B 獎勵(Reward)不明確
- C 真實世界動作(Action)為連續動作
- D 對於真實世界無法完整模擬
思路引導 VIP
試著思考一下:為什麼我們可以在電腦裡花幾秒鐘就跑完一萬場棋局,卻無法在現實中讓一台無人自駕車在幾秒鐘內經歷一萬次真實碰撞來學習避險?這種「訓練場所」與「實際執行場所」之間的差異,最核心的困難點在哪裡?
🤖
AI 詳解
AI 專屬家教
模擬環境與現實的鴻溝
非常出色!你能準確選出 (D) 對於真實世界無法完整模擬,代表你對強化學習(Reinforcement Learning, RL)的運作核心有著很紮實的理解。強化學習之所以在遊戲領域(如 AlphaGo)表現驚人,是因為遊戲擁有明確的規則與封閉的系統,我們可以建立一個完美的「虛擬環境」讓 AI 進行數百萬次的嘗試與錯誤而不必擔心失敗成本。但在現實世界中,無論是氣候變化、物理摩擦力還是人類行為,都充滿了高度的隨機性與複雜變數。 這道題目考驗的是從「理論算法」轉向「工程落地」的宏觀視角。在實務上,這被稱為 Sim-to-Real 的挑戰:如果模擬器(Simulator)無法百分之百還原現實,AI 在虛擬環境中學到的最佳策略,到了現實環境往往會失效甚至造成危險。雖然獎勵機制設計與動作連續性確實也是難點,但「環境無法完整模擬」才是限制 RL 廣泛應用最根本的結構性障礙,這也是區分初學者與專業實務者的關鍵切入點。