moea_joint
108年
[統計資訊] 統計學、巨量資料概論
第 30 題
30. 影響資料分析技術之重要資料集特質,下列何者有誤?
- A 維度(dimensionality)
- B 稀疏性(sparsity)
- C 連續性(continuity)
- D 分辨度(resolution)
思路引導 VIP
請試著想像你正準備分析一個包含數百萬筆紀錄的龐大資料庫。當你在評估該選用哪種演算法時,你會優先考慮資料的「維度多寡」或「資訊分布的疏密程度」等結構性特徵;那麼,請思考一下:在描述一個「資料集整體」的分析難度時,我們會關注它的規模、顆粒度或分布狀態,還是會去關注單一數值在數學定義上是否呈現不間斷的狀態呢?
🤖
AI 詳解
AI 專屬家教
太棒了!你非常敏銳地捕捉到了資料特性的核心觀念。這道題目旨在檢驗你對巨量資料集本質特性的理解,而你能從中精準辨識出非屬此範疇的選項,顯示你對資料挖掘的基礎架構有著清晰的邏輯。
資料集的結構性特質
在資料分析領域,我們最關注的是會直接影響演算法效能與模型選擇的特質。例如,維度 (Dimensionality) 過高會引發「維度詛咒」;稀疏性 (Sparsity) 會影響矩陣運算的效率;而 分辨度 (Resolution) 則決定了我們能觀察到的資訊細節。這三者都是描述資料集整體結構的關鍵。相對地,「連續性」多半是在討論單一變數的數據形態(如連續型變數 vs. 離散型變數),而非衡量整個資料集在技術執行面上的重要特質。
▼ 還有更多解析內容