教育行業(yè)A股IPO第一股(股票代碼 003032)

全國(guó)咨詢/投訴熱線:400-618-4000

基于數(shù)據(jù)源的“臟”數(shù)據(jù)分類

更新時(shí)間:2022年07月07日18時(shí)34分 來(lái)源:傳智教育 瀏覽次數(shù):

通常情況下,將數(shù)據(jù)源中不完整、重復(fù)以及錯(cuò)誤等有問(wèn)題的數(shù)據(jù)稱為“臟”數(shù)據(jù)。由于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)自底層數(shù)據(jù)源,因此“臟”數(shù)據(jù)出現(xiàn)的原因與數(shù)據(jù)源有密切的關(guān)系?;跀?shù)據(jù)源的“臟”數(shù)據(jù)分類如圖所示。

臟數(shù)據(jù)分類
圖1基于數(shù)據(jù)源的“臟”數(shù)據(jù)分類

從圖1中可以看出,基于數(shù)據(jù)源的“臟”數(shù)據(jù)質(zhì)量問(wèn)題可以分為兩類,即單數(shù)據(jù)源問(wèn)題和多數(shù)據(jù)源問(wèn)題。單數(shù)據(jù)源問(wèn)題和多數(shù)據(jù)源問(wèn)題的具體介紹如下。

1)單數(shù)據(jù)源問(wèn)題

單數(shù)據(jù)源的數(shù)據(jù)質(zhì)量主要取決于它的模式對(duì)數(shù)據(jù)完整性約束的控制程度。由于數(shù)據(jù)模式和完整性約束控制了數(shù)據(jù)的范圍,如果單數(shù)據(jù)源沒(méi)有數(shù)據(jù)模式,就會(huì)對(duì)進(jìn)入和存儲(chǔ)的數(shù)據(jù)。

缺乏相應(yīng)的限制,此時(shí)很有可能出現(xiàn)拼寫錯(cuò)誤的數(shù)據(jù)和不一致的數(shù)據(jù)。

單數(shù)據(jù)源的實(shí)例層問(wèn)題是由于數(shù)據(jù)在模式層無(wú)法預(yù)防的錯(cuò)誤和不一致引起的。典型的單數(shù)據(jù)源實(shí)例層問(wèn)題包括缺失值(即一些記錄在某些屬性上沒(méi)有值)、拼寫錯(cuò)誤(即在數(shù)據(jù)輸入時(shí)容易出現(xiàn))、屬性依賴沖突(即不滿足屬性間的依賴關(guān)系,如城市名與郵政編碼不滿足對(duì)應(yīng)關(guān)系等)以及相似重復(fù)記錄(即由于數(shù)據(jù)輸入錯(cuò)誤等原因?qū)е掠卸鄺l記錄表示現(xiàn)實(shí)世界中的同一個(gè)實(shí)體)。

對(duì)于不同范圍的數(shù)據(jù)質(zhì)量問(wèn)題,相應(yīng)的數(shù)據(jù)清洗方式也會(huì)有所不同,清楚地了解目標(biāo)數(shù)據(jù)存在的質(zhì)量問(wèn)題是提供完善的數(shù)據(jù)清洗方式的基礎(chǔ)。

2)多數(shù)據(jù)源問(wèn)題

單數(shù)據(jù)源情況下出現(xiàn)的問(wèn)題在多數(shù)據(jù)源情況下變得更加嚴(yán)重。每個(gè)數(shù)據(jù)源中都有可能包含“臟”數(shù)據(jù),而且每個(gè)數(shù)據(jù)源中的數(shù)據(jù)表示方法都各自不同,還有可能出現(xiàn)數(shù)據(jù)重復(fù)或矛盾沖突。因?yàn)樵诤芏嗲闆r下,各個(gè)數(shù)據(jù)源都是為了滿足某一個(gè)特定需要而單獨(dú)設(shè)計(jì)、配置和維護(hù),這很大程度上導(dǎo)致數(shù)據(jù)庫(kù)管理系統(tǒng)、數(shù)據(jù)模型、模式設(shè)計(jì)和實(shí)際數(shù)據(jù)的異構(gòu)性。多數(shù)據(jù)源中存在的與模式相關(guān)的質(zhì)量問(wèn)題主要是名字沖突和結(jié)構(gòu)沖突。名字沖突表現(xiàn)在同一個(gè)名字表示不同的對(duì)象,或不同的名字表示同一個(gè)對(duì)象;結(jié)構(gòu)沖突的典型表現(xiàn)是不同的數(shù)據(jù)源中同一對(duì)象用不同的方式表示。

除模式相關(guān)的質(zhì)量問(wèn)題外,許多質(zhì)量問(wèn)題只出現(xiàn)在實(shí)例層次上。單數(shù)據(jù)源中出現(xiàn)的各種問(wèn)題都將以不同方式出現(xiàn)在不同的數(shù)據(jù)源中,如重復(fù)記錄、矛盾記錄等。即使在具有相同屬性名稱和數(shù)據(jù)類型的情況下,各異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)也可能有不同的表示方式,或不同的解釋在不同的數(shù)據(jù)源中信息的聚集程度以及代表的時(shí)間點(diǎn)都有可能不同。

0 分享到:
和我們?cè)诰€交談!