地特四等申論題 105年 [資訊處理] 程式設計概要

第一題

📖 題組：
在微軟的注音輸入法裡頭，會根據前後字的關係，幫你選字，但常常會發生最常用的字出現在最後。（每小題 4 分，共 8 分） (一)請問這是什麼問題造成的？ (二)如何改變這投票機制（voting scheme），解決上述的問題？

📝 此題為申論題，共 2 小題

小題 (一)

請問這是什麼問題造成的？

看到此題，應立即聯想輸入法底層的「自然語言處理（NLP）模型」，特別是 N-gram 語言模型。切入點在於分析「上下文條件機率」與「單字絕對頻率」的衝突，並帶入「資料稀疏（Data Sparsity）」或「權重失衡」等專業術語來解釋為何常用字會排序墊底。

🤖

AI 詳解

AI 專屬家教

【破題】此現象主要是輸入法底層的語言模型（如 N-gram 模型）在「上下文機率」與「單字詞頻」的權重分配失衡，以及資料稀疏（Data Sparsity）問題所造成。【論述】

如何改變這投票機制（voting scheme），解決上述的問題？

解決輸入法選字排序問題，核心在於如何平衡「全域字頻（常用字）」、「上下文關聯（N-gram）」與「使用者近期習慣」。答題時應從演算法的最佳化著手，提出導入加權機制、時間衰減函數及多層次防呆門檻等具體作法。

🤖

AI 詳解

AI 專屬家教

【破題】為解決常用字排序落後的問題，應對輸入法的候選字「投票機制」（即結合全域字頻、區域上下文、使用者習慣等多重模型的決策過程）進行權重最佳化與動態調整。【論述】

查看更多「[資訊處理] 程式設計概要」的主題分類考古題