更新時間:2022年10月11日10時08分 來源:傳智教育 瀏覽次數(shù):
7月29日-31日,ApacheCon Asia 2022開源大會在線上盛大開啟,來自傳智教育Python+大數(shù)據(jù)學(xué)科的張敬存老師、趙晨杰老師,共同在會上發(fā)表了題為《大數(shù)據(jù)&Python生態(tài)在傳智教育的實(shí)踐和思考》的演講,和與會者分享了傳智教育對大數(shù)據(jù)&Python生態(tài)發(fā)展的思考、探索與實(shí)踐歷程。
據(jù)悉,ApacheCon Asia 2022是由Apache 軟件基金會(ASF)組織的官方全球系列大會,作為久負(fù)盛名的開源盛宴,活動吸引了全球的開發(fā)者前來探討開源技術(shù)、開源文化和開源理念。
今年的ApacheCon Asia 2022會議議程覆蓋了數(shù)十個類別的Apache 項(xiàng)目內(nèi)容,從流處理到消息隊(duì)列、集成,從大數(shù)據(jù)到金融科技,從搜索再到Tomcat等都有涉及。
當(dāng)前,大數(shù)據(jù)技術(shù)正在深刻的引領(lǐng)和改變著各個行業(yè)發(fā)展,而Apache 軟件基金會(ASF)有著非常多的大數(shù)據(jù)項(xiàng)目,比如Hadoop, Hive, Spark, HBase, Kylin, Ozone, CarbonData, Doris, Cassandra, ZooKeeper,Hudi,Iceberg,Zeppelin,SeaTunnel(incubator) 等。也因此,本次大數(shù)據(jù)分論壇倍受業(yè)內(nèi)關(guān)注。在會場中,開發(fā)者們共同探討大數(shù)據(jù)的前沿技術(shù)趨勢以及一線用戶的實(shí)踐經(jīng)驗(yàn)、原理、架構(gòu)分析等。
傳智教育兩位老師作為大數(shù)據(jù)領(lǐng)域的探索者和授業(yè)者,受邀分享了《大數(shù)據(jù) Python&生態(tài)在傳智教育的實(shí)踐和思考》,并從大數(shù)據(jù)Python生態(tài)發(fā)展、傳智教育基于大數(shù)據(jù)Python生態(tài)架構(gòu)演變過程、大數(shù)據(jù)Python生態(tài)在傳智教育落地實(shí)踐、傳智教育大數(shù)據(jù)Python生態(tài)的展望四個方面,深度解析了傳智教育長期以來對大數(shù)據(jù)Python的技術(shù)理念、實(shí)踐應(yīng)用和發(fā)展。
大數(shù)據(jù)Python生態(tài)發(fā)展
傳智教育認(rèn)為,大數(shù)據(jù)Python生態(tài)的核心目標(biāo)實(shí)際上圍繞著兩個關(guān)鍵字,分別是大數(shù)據(jù)和Python。
具體來講無非兩點(diǎn),第一是將大數(shù)據(jù)的能力輸出給Python用戶,比如說Pyspark, 就相當(dāng)于將spark的計算能力輸出給了Python用戶,進(jìn)而就有了Pyspark這種組件。
其次要將Python生態(tài)分析計算的功能運(yùn)行到大數(shù)據(jù)的組建上,進(jìn)而提升Python生態(tài)對大數(shù)據(jù)問題的解決能力。
此外,使用Python語言來學(xué)習(xí)和應(yīng)用大數(shù)據(jù)是非常具有優(yōu)勢的,大數(shù)據(jù)明星框架Spark首推使用Python語言進(jìn)行開發(fā)。
·
傳智教育基于大數(shù)據(jù)Python生態(tài)架構(gòu)演變過程
| 傳智教育基于大數(shù)據(jù)Python生態(tài)架構(gòu)演變過程
趙老師結(jié)合傳智教育的實(shí)際情況舉例說,傳智教育的線上平臺業(yè)務(wù)線涉及100多個業(yè)務(wù)的看板,3000多個業(yè)務(wù)指標(biāo)的分析,對于如此龐大的業(yè)務(wù)處理,傳智教育采用了Python+大數(shù)據(jù)生態(tài),從而實(shí)現(xiàn)整個數(shù)據(jù)的Pipeline來操作,同時通過實(shí)時數(shù)倉、用戶畫像和推薦系統(tǒng)等更好地為用戶提供合適的產(chǎn)品。
實(shí)際業(yè)務(wù)中遇到很多困難,比如:用戶咨詢和學(xué)習(xí)行為的大幅上漲;各業(yè)務(wù)庫和第三方系統(tǒng)的數(shù)據(jù)同步,采集同步;業(yè)務(wù)分析類需求查詢效率低(使用分析庫ADB查詢效率仍然低下);智能推薦(針對個性化行為信息,如何實(shí)現(xiàn)個性化課程推薦)等。
傳智教育基于上述痛點(diǎn)升級了架構(gòu),采用Pyflink生態(tài),重新設(shè)計出適合業(yè)務(wù)大數(shù)據(jù)的一個技術(shù)架構(gòu),運(yùn)用大數(shù)據(jù)Python生態(tài)的Pyflink實(shí)現(xiàn)ETL處理,實(shí)時數(shù)倉,實(shí)現(xiàn)用戶畫像和推薦等。
值得一提的是,上圖所示的架構(gòu)變遷V3.0中,從實(shí)時數(shù)倉、畫像到推薦系統(tǒng),都在整個傳智教育的大數(shù)據(jù)平臺,并首次引入 PyFlink,但是在使用過程中由于遇到了很多窗口的操作不支持問題,且當(dāng)時PyFlink本身功能不完善,所以傳智教育就開發(fā)了窗口及其他PyFLink算子相關(guān)功能,并貢獻(xiàn)了十多個 PR 來幫助 PyFlink 變得更加成熟。
大數(shù)據(jù)Python生態(tài)在傳智教育落地實(shí)踐
傳智教育在線上平臺擁有多個學(xué)科,30多個就業(yè)模塊課程,上百門小課,需要根據(jù)用戶行為實(shí)時推薦小課和就業(yè)班課程,涉及首頁推薦、熱門推薦、猜你喜歡、搜索頁好課推薦等,需要通過用戶畫像和推薦系統(tǒng)完成個性化推薦服務(wù)。
以用戶畫像落地實(shí)踐為例,用戶信息標(biāo)簽化,也就是抽取出一個平臺用戶的信息全貌,從而解決如何將數(shù)據(jù)轉(zhuǎn)化為商業(yè)價值的問題,包括教育程度、職業(yè)、喜好等標(biāo)簽,以便全面了解用戶信息,同時給推薦系統(tǒng)提供數(shù)據(jù)支持。
那該使用什么技術(shù)完成標(biāo)簽計算?
在傳智教育大數(shù)據(jù)&Python生態(tài)中,會首先將標(biāo)簽進(jìn)行分級,使用PyFlink技術(shù)棧完成人口屬性下面的年齡、性別等四級標(biāo)簽計;商業(yè)屬性中支付方式、客單價、有券必買等四級標(biāo)簽;行為屬性中瀏覽時長、登錄頻率、訪問頻率等四級標(biāo)簽。
然后,通過PyFlink和PyAlink整合完成客戶價值標(biāo)簽RFM、用戶活躍度模型RFE、價值敏感度模型PSM、購買性別標(biāo)簽USG等,從而完成用戶畫像的咨詢,以及后續(xù)課程、就業(yè)、出勤等10多個看板,1000多個四級標(biāo)簽構(gòu)建。
展望傳智教育大數(shù)據(jù)Python生態(tài)
最后,傳智教育的趙晨杰老師,分享了大數(shù)據(jù)Python生態(tài)在傳智教育的未來發(fā)展展望。
例如,在實(shí)時數(shù)倉方面,將借助于Python大數(shù)據(jù)生態(tài)完成 ,數(shù)據(jù)湖實(shí)時接入數(shù)據(jù),Doris實(shí)時同步數(shù)據(jù)湖數(shù)據(jù)。
在用戶畫像方面,完善用戶標(biāo)簽體系,增加挖掘類標(biāo)簽占比,豐富實(shí)時用戶畫像場景等。
在推薦系統(tǒng)方面,增加知識圖譜推薦,結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)精準(zhǔn)推薦,預(yù)研Bert模型在推薦系統(tǒng)應(yīng)用等。
傳智教育相信在Apache 各類開源框架的應(yīng)用下,傳智教育的各類系統(tǒng)應(yīng)用能越來越好,同時在實(shí)踐的過程中,也能反哺系統(tǒng)功能,讓框架更完整,實(shí)現(xiàn)更多的功能。
為了讓更多的開發(fā)者在Apache社區(qū)學(xué)到大數(shù)據(jù)相關(guān)的前沿技術(shù),傳智教育現(xiàn)已聯(lián)合Apache Hudi、Apache Doris、Apache Pulsar 等官方社區(qū)推出了完整的中文課程,給想要了解和使用這些技術(shù)的同學(xué),提供一個快速入門的途徑,也為開源社區(qū)貢獻(xiàn)了自己的一份力量。
傳智教育此次應(yīng)邀出席ApacheCon Asia 2022開源大會,展現(xiàn)出高新技術(shù)開發(fā)及應(yīng)用的實(shí)力,作為一直致力于培養(yǎng)數(shù)字化人才的職業(yè)教育集團(tuán),未來將繼續(xù)深耕新技術(shù)場景化應(yīng)用,探索數(shù)字化人才培養(yǎng)模式,帶給行業(yè)更多前沿探索實(shí)踐。
北京校區(qū)