地特四等申論題
105年
[資訊處理] 程式設計概要
第 一 題
📖 題組:
在微軟的注音輸入法裡頭,會根據前後字的關係,幫你選字,但常常會發生最常用的字出現在最後。(每小題 4 分,共 8 分) (一)請問這是什麼問題造成的? (二)如何改變這投票機制(voting scheme),解決上述的問題?
在微軟的注音輸入法裡頭,會根據前後字的關係,幫你選字,但常常會發生最常用的字出現在最後。(每小題 4 分,共 8 分) (一)請問這是什麼問題造成的? (二)如何改變這投票機制(voting scheme),解決上述的問題?
📝 此題為申論題,共 2 小題
小題 (一)
請問這是什麼問題造成的?
思路引導 VIP
看到此題,應立即聯想輸入法底層的「自然語言處理(NLP)模型」,特別是 N-gram 語言模型。切入點在於分析「上下文條件機率」與「單字絕對頻率」的衝突,並帶入「資料稀疏(Data Sparsity)」或「權重失衡」等專業術語來解釋為何常用字會排序墊底。
小題 (二)
如何改變這投票機制(voting scheme),解決上述的問題?
思路引導 VIP
解決輸入法選字排序問題,核心在於如何平衡「全域字頻(常用字)」、「上下文關聯(N-gram)」與「使用者近期習慣」。答題時應從演算法的最佳化著手,提出導入加權機制、時間衰減函數及多層次防呆門檻等具體作法。