更新時(shí)間:2022年07月15日10時(shí)11分 來源:傳智教育 瀏覽次數(shù):
隨著Hadoop的不斷發(fā)展,Hadoop生態(tài)系統(tǒng)越來越完善,現(xiàn)如今已經(jīng)發(fā)展成一個(gè)龐大的生態(tài)體系,如圖1-3所示。
從圖1-3中可以看出,Hadoop生態(tài)系統(tǒng)包含了很多子系統(tǒng),下面介紹一些常見的子系統(tǒng),具體如下。
圖1-3 Hadoop生態(tài)圈
1.分布式存儲(chǔ)系統(tǒng)(HDFS)
HDFS是Hadoop分布式文件系統(tǒng)的簡稱,它是Hadoop生態(tài)系統(tǒng)中的核心項(xiàng)目之一,是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理基礎(chǔ)。HDFS具有高容錯(cuò)性的數(shù)據(jù)備份機(jī)制,它能檢測和應(yīng)對(duì)硬件故障,并在低成本的通用硬件上運(yùn)行。另外,HDFS具備流式的數(shù)據(jù)訪問特點(diǎn),提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應(yīng)用程序。
2.MapReduce分布式計(jì)算框架
MapReduce是一種計(jì)算模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。“Map”對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵值對(duì)形式中間結(jié)果;“Reduce”則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。MapReduce這種“分而治之”的思想,極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。
3.YARN資源管理平臺(tái)
YARN資源管理平臺(tái)(Yet Another Resource Negotiator)是Hadoop2.0中的資源管理器,它可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。
4.Sqoop數(shù)據(jù)遷移工具
Sqoop是一款開源的數(shù)據(jù)導(dǎo)入導(dǎo)出工具,主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的轉(zhuǎn)換,它可以將一個(gè)關(guān)系數(shù)據(jù)庫(例如,MySQL、Oracle等)中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)出到關(guān)系數(shù)據(jù)庫中,使數(shù)據(jù)遷移變得非常方便。
5.Mahout數(shù)據(jù)挖掘算法庫
Mahout數(shù)據(jù)挖掘算法庫是Apache旗下的一個(gè)開源項(xiàng)目,它提供了一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),包括聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘。此外,通過使用Apache Hadoop庫,Mahout可以有效地?cái)U(kuò)展到云中。
Python培訓(xùn)之?dāng)?shù)據(jù)預(yù)處理:通過duplicated()方法處理重復(fù)值
2022-07-11Python培訓(xùn):什么是分組分析法?
2022-07-11數(shù)據(jù)分析報(bào)告的寫作原則是什么?
2022-07-08Python數(shù)據(jù)分析:數(shù)據(jù)分析報(bào)告撰寫流程
2022-07-08基于數(shù)據(jù)源的“臟”數(shù)據(jù)分類
2022-07-07大數(shù)據(jù)培訓(xùn):數(shù)據(jù)分析師的職業(yè)要求(下)
2022-07-07北京校區(qū)