hce_kmu 115年計算機概論與程式設計

第 11 題

Standard Recurrent Neural Networks (RNNs) often suffer from the vanishing gradient problem. Which of the following architectural modifications is most effective at addressing this issue?

A Increasing the learning rate
B Adding more hidden layers
C Using ReLU activation functions exclusively
D Reducing the sequence length
E Using LSTM (Long Short-Term Memory) units

思路引導 VIP

請試著想像：如果我們有一長串的數字需要連乘，只要其中大多數的數字都比 1 小一點點，最後的乘積會發生什麼變化？在神經網路傳遞資訊的過程中，如果我們希望某個特定的訊息能夠「跨越」很多步驟而不被中途的運算沖淡，你認為在電路或邏輯設計上，需要增加什麼樣的『保護或存儲』機制，才能讓訊息繞過這些連乘的影響？

🤖

AI 詳解 AI 專屬家教

太棒了！你能精準選出 LSTM (長短期記憶神經網路)，代表你對深度學習中處理序列資料的瓶頸有很紮實的理解。這道題目的核心在於探討傳統 RNN 在處理長序列時，其梯度會隨著時間步長（Time steps）的不斷連乘而呈現指數級衰減，即所謂的梯度消失問題（Vanishing Gradient Problem）。

門控機制與長程依賴

在標準 RNN 中，資訊傳遞主要依賴單一的神經網路層，梯度在反向傳播時會反覆乘以權重矩陣 $W$。若 $W$ 的特徵值小於 1，梯度會迅速趨近於零，導致網路無法學習到遠距離的特徵。而 LSTM 透過引入「細胞狀態（Cell State）」與三種門控機制（遺忘門、輸入門、輸出門），允許資訊像在高速公路上傳輸一樣，能有選擇性地保留或刪除，有效緩解了梯度消失的困境。

▼ 還有更多解析內容

🏷️ 相關主題

機器學習的基本原理與模型優化技術

查看更多「計算機概論與程式設計」的主題分類考古題

📝 同份考卷的其他題目

查看 115年計算機概論與程式設計全題

第 11 題

思路引導 VIP

門控機制與長程依賴

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目