更新時(shí)間:2022年11月10日09時(shí)48分 來源:傳智教育 瀏覽次數(shù):
ETL主要是用來實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源數(shù)據(jù)集成的。多種數(shù)據(jù)源的所有原始數(shù)據(jù)大部分未作修改就被載入ETL,因而,無論數(shù)據(jù)源在關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù),還是在外部文件,集成后的數(shù)據(jù)都將被置于數(shù)據(jù)庫(kù)的數(shù)據(jù)表或數(shù)據(jù)倉(cāng)庫(kù)的維度表中,以便在數(shù)據(jù)庫(kù)內(nèi)或數(shù)據(jù)倉(cāng)庫(kù)中作進(jìn)一步轉(zhuǎn)換(因此,一般會(huì)將最終的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)中)。ETL的體系結(jié)構(gòu)如圖2-1所示。
圖2-1 ETL的體系結(jié)構(gòu)
在圖2-1中,若數(shù)據(jù)源1和數(shù)據(jù)源2均為功能較強(qiáng)大的DBMS(數(shù)據(jù)庫(kù)管理系統(tǒng)),則可以使用SQL語(yǔ)句完成一部分?jǐn)?shù)據(jù)清洗工作。但是,如果數(shù)據(jù)源為外部文件,就無法使用SQL語(yǔ)句進(jìn)行數(shù)據(jù)清洗工作了,只能直接從數(shù)據(jù)源中抽取出來,然后在數(shù)據(jù)轉(zhuǎn)換的時(shí)候進(jìn)行數(shù)據(jù)清洗的工作。因此,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)清洗工作主要還是在數(shù)據(jù)轉(zhuǎn)換的時(shí)候進(jìn)行。清洗好的數(shù)據(jù)將保存到目標(biāo)數(shù)據(jù)庫(kù)中,用于后續(xù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘以及商業(yè)智能。
數(shù)據(jù)分析工具Pandas:常用的統(tǒng)計(jì)計(jì)算
2022-11-02面試加分 Linux零基礎(chǔ)入門到進(jìn)階全套教程
2022-11-01Python培訓(xùn):Kafka消費(fèi)者分區(qū)分配策略
2022-11-01Python數(shù)據(jù)預(yù)處理:通過astype()方法強(qiáng)制轉(zhuǎn)換數(shù)據(jù)的類型
2022-11-01觸發(fā)器是什么?MySQL里該怎么使用觸發(fā)器?
2022-10-31科學(xué)計(jì)算庫(kù)NumPy:數(shù)組與標(biāo)量間的運(yùn)算
2022-10-28北京校區(qū)