免費開始練習
地特三等申論題 110年 [圖書資訊管理(選試英文)] 資訊系統與資訊檢索

第 一 題

📖 題組:
某機關 A 為瞭解網路上使用者的評價,委託開發社交平台訊息意見分析系統 S。此系統 S 針對該機關 A 的訊息,從網路爬取下來後,對每則訊息做出正向、負向、中立意見的預測。為評估系統 S 的成效,機關 A 對 S 產生的結果,由一位承辦人進行判斷,結果 100 則訊息中,該承辦人認為系統 S 預測正確的有 75 則。由於未達理想,系統 S 改進 3 個月後,再重新爬取網路訊息 100 則做預測,再交由同一名承辦人員判斷,這次該承辦人認為系統 S 預測正確的有 90 則。請問:
📝 此題為申論題,共 2 小題

小題 (一)

這樣評估系統成效的方式,有何重大缺點?(10 分)

思路引導 VIP

看到系統評估題,首先要聯想資訊檢索與系統評估的幾大基石:測試資料集(Test Collection)、判斷標準(Relevance/Sentiment Judgments)與評估指標(Evaluation Metrics)。接著檢視題目情境,從『樣本數量與一致性』、『人工標註的客觀性(Inter-rater reliability)』以及『評估指標的完整性』等維度切入,找出設計瑕疵。

🤖
AI 詳解
AI 專屬家教

【破題】 本案之評估方式在「測試資料集」、「判斷標準」及「評估指標」等資訊系統評估之核心要素上皆存在重大瑕疵,導致其前後兩次評估結果缺乏信度(Reliability)與效度(Validity),無法客觀證明系統已獲得改善。 【論述】

小題 (二)

從那些方面可以改進此種評價方式?(15 分)

思路引導 VIP

本題測驗「資訊系統與檢索」中對於機器學習與文本分類系統的評估方法(Evaluation Methodology)。解題時應從「評估指標(Metrics)」、「資料集設計(Datasets)」、「人為標註偏差(Annotator Bias)」與「抽樣代表性(Sampling)」四個維度,點出題幹中單一評分者、前後測試樣本不同、僅看準確率等盲點並提出改善建議。

🤖
AI 詳解
AI 專屬家教

【破題】 題幹中機關 A 對系統 S 的評價方式存在「標註者主觀偏差」、「前後測試基準不一」及「評估指標過於單一」等研究方法上的缺陷。為客觀衡量系統改進成效,應從下列四個面向進行評價方式的改善: 【論述】

升級 VIP 解鎖