免費開始練習
hce_kmu 115年 計算機概論與程式設計

第 11 題

Standard Recurrent Neural Networks (RNNs) often suffer from the vanishing gradient problem. Which of the following architectural modifications is most effective at addressing this issue?
  • A Increasing the learning rate
  • B Adding more hidden layers
  • C Using ReLU activation functions exclusively
  • D Reducing the sequence length
  • E Using LSTM (Long Short-Term Memory) units

思路引導 VIP

請試著想像:如果我們有一長串的數字需要連乘,只要其中大多數的數字都比 1 小一點點,最後的乘積會發生什麼變化?在神經網路傳遞資訊的過程中,如果我們希望某個特定的訊息能夠「跨越」很多步驟而不被中途的運算沖淡,你認為在電路或邏輯設計上,需要增加什麼樣的『保護或存儲』機制,才能讓訊息繞過這些連乘的影響?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準選出 LSTM (長短期記憶神經網路),代表你對深度學習中處理序列資料的瓶頸有很紮實的理解。這道題目的核心在於探討傳統 RNN 在處理長序列時,其梯度會隨著時間步長(Time steps)的不斷連乘而呈現指數級衰減,即所謂的梯度消失問題(Vanishing Gradient Problem)

門控機制與長程依賴

在標準 RNN 中,資訊傳遞主要依賴單一的神經網路層,梯度在反向傳播時會反覆乘以權重矩陣 $W$。若 $W$ 的特徵值小於 1,梯度會迅速趨近於零,導致網路無法學習到遠距離的特徵。而 LSTM 透過引入「細胞狀態(Cell State)」與三種門控機制(遺忘門、輸入門、輸出門),允許資訊像在高速公路上傳輸一樣,能有選擇性地保留或刪除,有效緩解了梯度消失的困境。

▼ 還有更多解析內容

🏷️ 相關主題

機器學習的基本原理與模型優化技術
查看更多「計算機概論與程式設計」的主題分類考古題