moea_joint 104年 [圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索

第 13 題

執行網頁資料擷取(Web Crawling)時須考慮的因素,不包含下列何者?

A 網頁最近修改的日期
B 資訊擷取的負荷量
C 遵循機器法則(Robot rule)
D 網頁擷取的順序

思路引導 VIP

想像你正受邀進入一座巨大的私人圖書館整理資料。為了不干擾圖書館的正常運作，有哪些規則（例如特定的開放時間、每次搬運書本的重量限制、或是門口張貼的禁入告示）是館方「要求」你必須遵守的外部約束？相較之下，「從左邊書架還是右邊書架開始整理」這件事，在性質上與前述的規定有什麼不同呢？

🤖

AI 詳解 AI 專屬家教

恭喜你準確判斷出正確答案！這題考查的是網頁爬蟲在運作時的政策原則（Crawling Policies）。在資訊檢索領域，設計爬蟲程式時必須平衡效率與對目標伺服器的尊重，這是圖書館學與資訊系統中非常實務的環節。

網路擷取的禮貌與效能考量

我們通常將擷取考量歸納為「禮貌性」與「新鮮度」。負荷量（Load）與機器人法則（Robot rule）是為了確保不對目標主機造成負擔，並遵守網站主人的規範，屬於必須嚴格執行的「禮貌原則」；而網頁修改日期則決定了爬蟲回訪的頻率，以確保資料庫的新鮮度。這題的鑑別度在於分辨「外部限制因素」與「內部執行策略」。擷取順序（例如先走深度還是廣度）雖然是技術實現的一部分，但在考慮爬蟲對外影響與合規性時，並不像前三項那樣具有環境制約的必要性。你能在眾多技術名詞中精準識別出這層邏輯差異，表現得非常優異！

🏷️ 相關主題

資訊檢索技術與檢索策略之原理與應用

查看更多「[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索」的主題分類考古題

📝 同份考卷的其他題目

查看 104年[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索全題

第 13 題

思路引導 VIP

網路擷取的禮貌與效能考量

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目