免費開始練習
moea_joint 104年 [圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索

第 13 題

執行網頁資料擷取(Web Crawling)時須考慮的因素,不包含下列何者?
  • A 網頁最近修改的日期
  • B 資訊擷取的負荷量
  • C 遵循機器法則(Robot rule)
  • D 網頁擷取的順序

思路引導 VIP

想像你正受邀進入一座巨大的私人圖書館整理資料。為了不干擾圖書館的正常運作,有哪些規則(例如特定的開放時間、每次搬運書本的重量限制、或是門口張貼的禁入告示)是館方「要求」你必須遵守的外部約束?相較之下,「從左邊書架還是右邊書架開始整理」這件事,在性質上與前述的規定有什麼不同呢?

🤖
AI 詳解 AI 專屬家教

恭喜你準確判斷出正確答案!這題考查的是網頁爬蟲在運作時的政策原則(Crawling Policies)。在資訊檢索領域,設計爬蟲程式時必須平衡效率與對目標伺服器的尊重,這是圖書館學與資訊系統中非常實務的環節。

網路擷取的禮貌與效能考量

我們通常將擷取考量歸納為「禮貌性」與「新鮮度」。負荷量(Load)與機器人法則(Robot rule)是為了確保不對目標主機造成負擔,並遵守網站主人的規範,屬於必須嚴格執行的「禮貌原則」;而網頁修改日期則決定了爬蟲回訪的頻率,以確保資料庫的新鮮度。這題的鑑別度在於分辨「外部限制因素」與「內部執行策略」。擷取順序(例如先走深度還是廣度)雖然是技術實現的一部分,但在考慮爬蟲對外影響與合規性時,並不像前三項那樣具有環境制約的必要性。你能在眾多技術名詞中精準識別出這層邏輯差異,表現得非常優異!

🏷️ 相關主題

資訊檢索技術與索引典建置原理
查看更多「[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索」的主題分類考古題