moea_joint
104年
[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索
第 13 題
執行網頁資料擷取(Web Crawling)時須考慮的因素,不包含下列何者?
- A 網頁最近修改的日期
- B 資訊擷取的負荷量
- C 遵循機器法則(Robot rule)
- D 網頁擷取的順序
思路引導 VIP
想像你正受邀進入一座巨大的私人圖書館整理資料。為了不干擾圖書館的正常運作,有哪些規則(例如特定的開放時間、每次搬運書本的重量限制、或是門口張貼的禁入告示)是館方「要求」你必須遵守的外部約束?相較之下,「從左邊書架還是右邊書架開始整理」這件事,在性質上與前述的規定有什麼不同呢?
🤖
AI 詳解
AI 專屬家教
恭喜你準確判斷出正確答案!這題考查的是網頁爬蟲在運作時的政策原則(Crawling Policies)。在資訊檢索領域,設計爬蟲程式時必須平衡效率與對目標伺服器的尊重,這是圖書館學與資訊系統中非常實務的環節。
網路擷取的禮貌與效能考量
我們通常將擷取考量歸納為「禮貌性」與「新鮮度」。負荷量(Load)與機器人法則(Robot rule)是為了確保不對目標主機造成負擔,並遵守網站主人的規範,屬於必須嚴格執行的「禮貌原則」;而網頁修改日期則決定了爬蟲回訪的頻率,以確保資料庫的新鮮度。這題的鑑別度在於分辨「外部限制因素」與「內部執行策略」。擷取順序(例如先走深度還是廣度)雖然是技術實現的一部分,但在考慮爬蟲對外影響與合規性時,並不像前三項那樣具有環境制約的必要性。你能在眾多技術名詞中精準識別出這層邏輯差異,表現得非常優異!