Sqoop是一個開源工具,用于在Apache Hadoop和關(guān)系型數(shù)據(jù)庫之間進行數(shù)據(jù)傳輸。它的主要目的是簡化大規(guī)模數(shù)據(jù)集的導(dǎo)入和導(dǎo)出。 查看全文>>
大數(shù)據(jù)常見問題2023-07-07 |傳智教育 |Sqoop,連接數(shù)據(jù)庫,劃分數(shù)據(jù)
常見的數(shù)據(jù)質(zhì)量問題主要包括缺失值、重復(fù)值以及錯誤值等問題。下面針對缺失值的清洗、重復(fù)值的清洗以及錯誤值的清洗進行講解... 查看全文>>
大數(shù)據(jù)常見問題2022-08-12 |傳智教育 |數(shù)據(jù)清洗,常見數(shù)據(jù)清洗方法
在HDFS中,NameNode是系統(tǒng)的核心節(jié)點,它存儲了各類元數(shù)據(jù)的信息,并負責(zé)管理文件系統(tǒng)的命名空間和客戶端對文件的訪問。但是,在Hadoop1.0版本中,NameNode只有一個,一旦這個NameNode發(fā)生故障,就會導(dǎo)致整個Hadoop集群不可用,也就是發(fā)生了單點故障問題。 查看全文>>
大數(shù)據(jù)技術(shù)文章2022-06-28 |傳智教育 |大數(shù)據(jù)培訓(xùn),HDFS高可用框架
大數(shù)據(jù)分析有完善的操作步驟,先分析什么,后分析什么,各個分析點之間都有邏輯聯(lián)系,體系化的分析形成,使工作更加高效便捷,數(shù)據(jù)更有說服力。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-04-22 |傳智教育 |大數(shù)據(jù)業(yè)務(wù)分析步驟,數(shù)據(jù)的收集,整理,展現(xiàn)和工作報告
Hadoop發(fā)行版本分為開源社區(qū)版和商業(yè)版,社區(qū)版是指由Apache軟件基金會維護的版本,是官方維護的版本體系。商業(yè)版Hadoop是指由第三方商業(yè)公司在社區(qū)版Hadoop基礎(chǔ)上進行了一些修改、整合以及各個服務(wù)組件兼容性測試而發(fā)行的版本。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-04-14 |傳智教育 |大數(shù)據(jù)Hadoop,HDFS,MapReduce
Apache Hive是Hadoop上的SQL引擎,也是大數(shù)據(jù)系統(tǒng)中重要的數(shù)據(jù)倉庫工具,Spark SQL支持訪問Hive數(shù)據(jù)倉庫,然后在Spark引擎中進行統(tǒng)計分析。接下來介紹通過Spark SQL操作Hive數(shù)據(jù)倉庫的具體實現(xiàn)步驟。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-04-14 |傳智教育 |Hive數(shù)據(jù)倉庫的操作, Spark SQL實現(xiàn)Hive數(shù)據(jù)倉庫的操作
DataFrame提供了兩種語法風(fēng)格,即DSL風(fēng)格語法和SQL風(fēng)格語法,二者在功能上并無區(qū)別,僅僅是根據(jù)用戶習(xí)慣,自定義選擇操作方式。接下來,我們通過兩種語法風(fēng)格,分別講解DataFrame操作的具體方法。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-04-14 |傳智教育 |DataFrame操作,DataFrame的常用操作
Spark可以通過并行集合創(chuàng)建RDD。即從一個已經(jīng)存在的集合、數(shù)組上,通過SparkContext對象調(diào)用parallelize()方法創(chuàng)建RDD。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-23 |傳智教育 |Spark方法創(chuàng)建RDD