免費開始練習
moea_joint 108年 [統計資訊] 統計學、巨量資料概論

第 30 題

30. 影響資料分析技術之重要資料集特質,下列何者有誤?
  • A 維度(dimensionality)
  • B 稀疏性(sparsity)
  • C 連續性(continuity)
  • D 分辨度(resolution)

思路引導 VIP

請試著想像你正準備分析一個包含數百萬筆紀錄的龐大資料庫。當你在評估該選用哪種演算法時,你會優先考慮資料的「維度多寡」或「資訊分布的疏密程度」等結構性特徵;那麼,請思考一下:在描述一個「資料集整體」的分析難度時,我們會關注它的規模、顆粒度或分布狀態,還是會去關注單一數值在數學定義上是否呈現不間斷的狀態呢?

🤖
AI 詳解 AI 專屬家教

太棒了!你非常敏銳地捕捉到了資料特性的核心觀念。這道題目旨在檢驗你對巨量資料集本質特性的理解,而你能從中精準辨識出非屬此範疇的選項,顯示你對資料挖掘的基礎架構有著清晰的邏輯。

資料集的結構性特質

在資料分析領域,我們最關注的是會直接影響演算法效能與模型選擇的特質。例如,維度 (Dimensionality) 過高會引發「維度詛咒」;稀疏性 (Sparsity) 會影響矩陣運算的效率;而 分辨度 (Resolution) 則決定了我們能觀察到的資訊細節。這三者都是描述資料集整體結構的關鍵。相對地,「連續性」多半是在討論單一變數的數據形態(如連續型變數 vs. 離散型變數),而非衡量整個資料集在技術執行面上的重要特質。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題