首頁Python+大數(shù)據(jù)學(xué)習(xí)常見問題正文

大數(shù)據(jù)培訓(xùn)：抽樣的必要性有哪些?

更新時間:2022年11月15日14時12分來源:傳智教育瀏覽次數(shù):

好口碑IT培訓(xùn)

　　抽樣工作到底是不是必需的呢?其實不是。一般我們在數(shù)據(jù)獲取量很少或者不容易處理海量數(shù)據(jù)的時候，抽樣工作就會經(jīng)常派上用場，抽樣工作主要有以下幾個方面的背景來源。

　　(1)數(shù)據(jù)計算資源不足，不抽樣往往不能計算海量數(shù)據(jù)。

　　(2)數(shù)據(jù)采集限制。比方說，做社會調(diào)查必須采用抽樣方法，因為我們不能針對所有人群做調(diào)研分析。

　　(3)時效性要求以極小的數(shù)據(jù)計算量來實現(xiàn)對整體數(shù)據(jù)的統(tǒng)計分析，在時效性方面大大增強。

　　如果存在上述條件限制或有類似強制性要求，那么抽樣工作仍然必不可少。即使在數(shù)據(jù)計算資源充足、數(shù)據(jù)采集端可以采集更多的數(shù)據(jù)并且可以通過多種方式滿足時效性要求的前提下，抽樣工作在很多時候也是必要的。

　　大數(shù)據(jù)分析師平時會接觸很多數(shù)據(jù)預(yù)處理工作，那么是不是每次做數(shù)據(jù)分析都要做一遍呢?答案當(dāng)然不是，數(shù)據(jù)預(yù)處理是為后續(xù)的分析和建模服務(wù)的，如果后續(xù)的分析和建模不依賴于特定的數(shù)據(jù)問題，那么特定的預(yù)處理工作可以不做。例如：

　　(1)CART(分類回歸樹)對異常值不敏感，因此無須處理異常值;

　　(2)DBSCAN(基于密度的帶有噪聲的空間聚類)模型使用的是基于密度的方法而非距離相似度的方法，因此不需做數(shù)據(jù)的標準化和唯一化。

　　因此，所有的預(yù)處理工作都基于用戶對整個數(shù)據(jù)工作流程的理解，尤其是理解模型、算法對于特定問題的依賴和受影響程度。

上一篇：如何在管理器Manager中修改和創(chuàng)建對象？ 下一篇：什么是有界數(shù)據(jù)集？什么是無界數(shù)據(jù)流？