普考申論題
105年
[資訊處理] 程式設計概要
第 一 題
📖 題組:
在微軟的注音輸入法裡頭,會根據前後字的關係,幫你選字,但常常會發生最常用的字出現在最後。(每小題 4 分,共 8 分) (一)請問這是什麼問題造成的? (二)如何改變這投票機制(voting scheme),解決上述的問題?
在微軟的注音輸入法裡頭,會根據前後字的關係,幫你選字,但常常會發生最常用的字出現在最後。(每小題 4 分,共 8 分) (一)請問這是什麼問題造成的? (二)如何改變這投票機制(voting scheme),解決上述的問題?
📝 此題為申論題,共 2 小題
小題 (一)
請問這是什麼問題造成的?
思路引導 VIP
看到這題,首先要聯想「輸入法自動選字」背後的演算法機制(通常為 N-gram 語言模型)。接著思考機率計算的盲點:為什麼「常用字」會輸給「冷門字」?關鍵切入點在於「上下文條件機率(前後文組合)」壓過了「先驗機率(單字本身詞頻)」,以及語料庫的「資料稀疏性(Data Sparsity)」導致機率分佈失真。
小題 (二)
如何改變這投票機制(voting scheme),解決上述的問題?
思路引導 VIP
看到此題應先聯想到自然語言處理(NLP)中的 N-gram 語言模型或輸入法的選字演算法機制。思考如何透過調整演算法權重、結合個人化歷史紀錄或動態更新詞頻,來平衡「上下文機率」與「單字絕對使用頻率」之間的衝突。