更新時間:2022年06月28日09時56分 來源:傳智教育 瀏覽次數(shù):
數(shù)據(jù)質量的評價指標主要包括數(shù)據(jù)的準確性(accuracy)、完整性(completeness)、簡潔性(concision)及適用性(applicability),其中數(shù)據(jù)的準確性、完整性和簡潔性是為了保證數(shù)據(jù)的適用性。下面針對數(shù)據(jù)質量的主要評價指標進行詳細的介紹。
數(shù)據(jù)的準確性就是要求數(shù)據(jù)中的噪聲盡可能少。為提高數(shù)據(jù)的準確性,需對數(shù)據(jù)集進行降噪處理。對于數(shù)據(jù)中偏離常規(guī)、分散的小樣本數(shù)據(jù),一般可視為噪聲或異常數(shù)據(jù),可通過最常用的異常值檢測方法聚類進行處理。
完整性指的是數(shù)據(jù)信息是否存在缺失的狀況。數(shù)據(jù)缺失的情況可能是整條數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。不完整的數(shù)據(jù)所能借鑒的價值會大大降低,也是數(shù)據(jù)質量更為基礎的一項評估標準。數(shù)據(jù)質量的完整性比較容易評估,一般通過數(shù)據(jù)統(tǒng)計中的記錄值和唯一值進行評估。
例如,網(wǎng)站日志日訪問量就是一個記錄值,平時的日訪問量在1000左右,突然某天降到100,就需要檢查數(shù)據(jù)是否存在缺失了。
簡潔性就是要盡量選擇重要的本質屬性,并消除冗余。進行決策時,決策者往往抓住反映問題的主要因素,而不需要把問題的細節(jié)都搞得很清楚。在數(shù)據(jù)挖掘時,特征的個數(shù)越多,產生噪聲的機會就越大。一些不必要的屬性既會增大數(shù)據(jù)量,又會影響挖掘數(shù)據(jù)的質量。因此,選擇較小的典型特征集不僅符合決策者的心理,而且還容易挖掘到簡潔有價值的信息。
適用性是評價數(shù)據(jù)質量的重要標準。建立數(shù)據(jù)倉庫的目的是進行數(shù)據(jù)挖掘、支持決策分析,而在現(xiàn)實世界中很難挖掘到滿意的數(shù)據(jù),但是我們可以盡量獲取符合要求的數(shù)據(jù)。數(shù)據(jù)的質量是否能滿足決策的需要是適用性的關鍵所在。盡管前面已經(jīng)強調了數(shù)據(jù)的準確性、完整性和簡潔性,但歸根結底是為了數(shù)據(jù)的實際效用。從數(shù)據(jù)的實際效用上講,適用性才是評價數(shù)據(jù)質量的核心準則。