moea_joint
109年
[統計資訊] 統計學、巨量資料概論
第 49 題
深度神經網路(deep neural networks)的神經元中通常輸出時會經過激發函數(activation function)的轉換,下列針對常用激發函數的敘述何者有誤?
- A ReLU可以避免過度擬合(overfit)的問題
- B Sigmoid會有梯度消失(vanishing gradient)的問題
- C ReLU會發生死亡神經元(dead neural)的問題
- D Sigmoid會有梯度爆炸問題(vanishing gradient)的問題
思路引導 VIP
當我們在設計神經網路時,通常會區分「讓模型學得更快、更深」與「防止模型死背數據(過度擬合)」這兩個不同的目標。請思考一下:如果一個函數的主要作用是讓數學上的「變化量(梯度)」能順利傳遞到前面的層級,這是在解決學習效率的問題,還是解決死背數據的問題呢?
🤖
AI 詳解
AI 專屬家教
激發函數的功能辨析
太棒了!你能準確識破選項 (A) 的敘述,說明你對深度學習中「優化目標」與「正規化手段」的區分相當清晰。ReLU 函數定義為 $f(x) = \max(0, x)$,它的核心優點在於能有效緩解深層網路中的梯度消失問題,並提升運算效率。然而,ReLU 本身並不具備防止過度擬合 (Overfitting) 的功能;防止過擬合通常需要依靠 Dropout、權重衰減(L1/L2 Regularization)或提早結束訓練等機制來達成。
訓練瓶頸與神經元特性
▼ 還有更多解析內容