更新時(shí)間:2022年08月12日11時(shí)59分 來源:傳智教育 瀏覽次數(shù):
數(shù)據(jù)挖掘中面對的通常都是大型的數(shù)據(jù)庫,它的屬性有幾十個(gè)甚至幾百個(gè),因?yàn)槠渲心硞€(gè)屬性值的缺失而放棄大量其他的屬性值,這種刪除是對信息的極大浪費(fèi),所以產(chǎn)生了插補(bǔ)缺失值的思想與方法。常用的填充缺失值方法具體如下。
1.均值填充
數(shù)據(jù)的屬性分為定矩型和非定矩型。如果缺失值是定矩型的,就以該屬性存在值的平均值插補(bǔ)缺失的值;如果缺失值是非定矩型的,就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,用該屬性的眾數(shù)(即出現(xiàn)頻率最高的值)補(bǔ)齊缺失的值。
2.熱卡填充
對于一個(gè)包含缺失值的對象,熱卡填充方法會(huì)在完整數(shù)據(jù)集中找到一個(gè)與它最相似的對象的值進(jìn)行填充。對于不同的問題,可能會(huì)選用不同的標(biāo)準(zhǔn)對相似對象進(jìn)行判定,從概念上理解該方法很簡單,利用數(shù)據(jù)間的關(guān)系進(jìn)行缺失值評估。熱卡填充后方法的缺點(diǎn)在于難以定義相似標(biāo)準(zhǔn),人為主觀因素較多。
3.回歸填充
將缺失值變量(自身字段)作為因變量,相關(guān)變量(其他字段)作為自變量進(jìn)行回歸擬合,用預(yù)測值作為填補(bǔ)值,需要注意的是自變量的數(shù)據(jù)盡量是完整的。
與前述幾種插補(bǔ)方法比較,回歸填充方法的優(yōu)勢是可充分利用數(shù)據(jù)庫中的信息,弊端主要有兩點(diǎn):第一,該方法是無偏估計(jì),但容易忽視隨機(jī)誤差、低估標(biāo)準(zhǔn)差和其他未知性質(zhì)的測量值,而且這一問題會(huì)隨著缺失信息的增多變得更加嚴(yán)重;第二,研究者必須假設(shè)存在缺失值所在的變量與其他變量存在線性關(guān)系,大多數(shù)情況下這種關(guān)系是不存在的。
4.多重填充
多重填充是由Rubin等人于1987年建立起的一種數(shù)據(jù)擴(kuò)充和統(tǒng)計(jì)分析方法,作為簡單估算的改進(jìn)產(chǎn)物。首先,多重估算技術(shù)用一系列可能的值替換每個(gè)缺失值,以反映被替換的缺失數(shù)據(jù)的不確定性。然后,用標(biāo)準(zhǔn)的統(tǒng)計(jì)分析過程對多次替換后產(chǎn)生的若干個(gè)數(shù)據(jù)集進(jìn)行分析。最后,把來自各個(gè)數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果進(jìn)行綜合,得到總體參數(shù)的估計(jì)值。
由于多重估算技術(shù)并不是用單一的值替換缺失值,而是試圖產(chǎn)生缺失值的一個(gè)隨機(jī)樣本,這種方法可以反映出由于數(shù)據(jù)缺失而導(dǎo)致的不確定性,產(chǎn)生更加有效的統(tǒng)計(jì)推斷。
北京校區(qū)