教育行業(yè)A股IPO第一股(股票代碼 003032)

全國(guó)咨詢/投訴熱線:400-618-4000

大數(shù)據(jù)培訓(xùn):數(shù)據(jù)的抽取方式有哪些?

更新時(shí)間:2022年08月01日15時(shí)16分 來(lái)源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

  數(shù)據(jù)的抽取就是從異構(gòu)數(shù)據(jù)源抽取數(shù)據(jù),但是并不是所有數(shù)據(jù)源中的數(shù)據(jù)都有實(shí)際的價(jià)值。業(yè)務(wù)人員和設(shè)計(jì)人員需要分析討論哪些數(shù)據(jù)有價(jià)值,哪些數(shù)據(jù)可以忽略,然后制定抽取策略。數(shù)據(jù)的抽取分為數(shù)據(jù)的全量抽取和數(shù)據(jù)的增量抽取。其中,全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制,它將原數(shù)據(jù)表中的數(shù)據(jù)全部抽取出來(lái);經(jīng)過(guò)上次抽取后,源數(shù)據(jù)表中的數(shù)據(jù)出現(xiàn)變化時(shí),會(huì)進(jìn)行增量抽取。增量抽取是抽取數(shù)據(jù)源表中新增或被修改的數(shù)據(jù)。

  在ETL的使用過(guò)程中,數(shù)據(jù)的增量抽取比數(shù)據(jù)的全量抽取應(yīng)用更廣泛。要實(shí)現(xiàn)增量抽取,就要準(zhǔn)確地捕獲到數(shù)據(jù)庫(kù)中數(shù)據(jù)源表數(shù)據(jù)的變化,因此捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵。數(shù)據(jù)的增量抽取有4種方式,具體如下。

  1.觸發(fā)器方式

  觸發(fā)器方式是根據(jù)抽取要求,在要被抽取的數(shù)據(jù)源表上建立插入、修改、刪除3個(gè)觸發(fā)器,每當(dāng)數(shù)據(jù)源表中的數(shù)據(jù)發(fā)生變化,就被相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫(xiě)入一個(gè)增量日志表中。ETL的增量抽取則是從增量日志中抽取,而不是直接在源表中抽取數(shù)據(jù),同時(shí),增量日志表中抽取過(guò)來(lái)的數(shù)據(jù)要及時(shí)被標(biāo)記或者刪除。

  2.時(shí)間戳方式

  時(shí)間戳方式是指增量抽取時(shí),抽取進(jìn)程通過(guò)比較指定抽取時(shí)間與抽取源表的時(shí)間戳字段的值決定抽取哪些數(shù)據(jù)。這種方式需要在源表中增加一個(gè)時(shí)間戳字段,系統(tǒng)中更新或修改源表數(shù)據(jù)的時(shí)候,也會(huì)同時(shí)修改時(shí)間戳字段的值。插入數(shù)據(jù)的時(shí)間戳有系統(tǒng)時(shí)間指定。

  3.全表比對(duì)方式

  全表比對(duì)方式是指在增量抽取時(shí),ETL進(jìn)程逐條比較源表和目標(biāo)表的記錄,將新增或修改等變化的記錄過(guò)濾讀取出來(lái)。

  4.日志表方式

  對(duì)于建立了業(yè)務(wù)系統(tǒng)的生產(chǎn)數(shù)據(jù)庫(kù)企業(yè)來(lái)說(shuō),可以在數(shù)據(jù)庫(kù)中創(chuàng)建業(yè)務(wù)(企業(yè)中的業(yè)務(wù))日志表,當(dāng)特定需要監(jiān)控的業(yè)務(wù)數(shù)據(jù)發(fā)生變化時(shí),由相應(yīng)的業(yè)務(wù)系統(tǒng)程序模塊更新維護(hù)日志表的內(nèi)容。增量抽取時(shí),通過(guò)讀日志表數(shù)據(jù)決定加載哪些數(shù)據(jù)及如何加載。日志表的維護(hù)需要由業(yè)務(wù)系統(tǒng)程序編寫(xiě)代碼完成。

  以上4中常見(jiàn)的增量抽取方式?jīng)]有一種方式具有絕對(duì)的優(yōu)勢(shì),不同的方式在不同企業(yè)中的表現(xiàn)大體都是相對(duì)平衡的。通常根據(jù)企業(yè)中的業(yè)務(wù)需求和硬件環(huán)境選擇ETL抽取機(jī)制。

0 分享到:
和我們?cè)诰€交談!