更新時間:2020年06月02日15時58分 來源:傳智播客 瀏覽次數(shù):
反爬蟲系統(tǒng)【Lua+Spark+Redis+Hadoop框架搭建】 |
||
初級 |
共19課 |
|
很多訂票網(wǎng)站的官網(wǎng)在互聯(lián)網(wǎng)提供查詢、預(yù)訂等服務(wù),如:各種航空公司的官網(wǎng)、去哪網(wǎng)、攜程等,有大量正常用戶訪問的同時,也存在大量爬蟲。爬蟲消耗了系統(tǒng)資源,但是卻沒有轉(zhuǎn)化成銷量,導(dǎo)致系統(tǒng)資源虛耗,嚴重時會造成系統(tǒng)波動,影響正常用戶訪問購票。提取碼:t3ld |
||
課程介紹
很多訂票網(wǎng)站的官網(wǎng)在互聯(lián)網(wǎng)提供查詢、預(yù)訂等服務(wù),如:各種航空公司的官網(wǎng)、去哪網(wǎng)、攜程等,有大量正常用戶訪問的同時,也存在大量爬蟲。爬蟲消耗了系統(tǒng)資源,但是卻沒有轉(zhuǎn)化成銷量,導(dǎo)致系統(tǒng)資源虛耗,嚴重時會造成系統(tǒng)波動,影響正常用戶訪問購票。 大量熱門路線的好車次和航線的特價艙位吸引正常用戶通過官網(wǎng)訂票的同時,也存在大量惡意占座的非法代理(黃牛)。通過不斷的訂座但不支付,利用這些虛占的座位進行非法盈利,通過系統(tǒng)日志分析等,發(fā)現(xiàn)官網(wǎng)存在大量的非法占座會員及非會員手機號用戶。 為了限制偽裝技術(shù)越來越強的爬蟲訪問和惡意占座行為,需要開發(fā)大數(shù)據(jù)防爬工具。 項目采用Lua+Spark+Redis+Hadoop框架搭建,包含狀態(tài)監(jiān)控,反爬指標(biāo)配置,運營指標(biāo)監(jiān)控展示等功能。推薦了解傳智播客大數(shù)據(jù)課程。
課程內(nèi)容:
1、項目整體介紹和數(shù)據(jù)采集模塊詳細介紹
2、openresty安裝和lua語法學(xué)習(xí)
3、數(shù)據(jù)采集模塊開發(fā)和反爬蟲工程創(chuàng)建及鏈路統(tǒng)計功能開發(fā)
4、數(shù)據(jù)預(yù)處理模塊:數(shù)據(jù)清洗和脫敏和打標(biāo)簽及數(shù)據(jù)解析
5、"數(shù)據(jù)結(jié)構(gòu)化和數(shù)據(jù)推送 spark系統(tǒng)監(jiān)控功能開發(fā) 實現(xiàn)反爬平臺系統(tǒng)監(jiān)控6、爬蟲識別指標(biāo)計算7、爬蟲數(shù)據(jù)備份恢復(fù)和離線計算
適用人群:
1、對大數(shù)據(jù)Spark感興趣的在校生及應(yīng)屆畢業(yè)生。
2、對目前職業(yè)有進一步提升要求,希望從事大數(shù)據(jù)行業(yè)高薪工作的在職人員。
3、對大數(shù)據(jù)行業(yè)感興趣的相關(guān)人員。
課程目錄:
第一章 項目概述
1. 系統(tǒng)介紹
2. 模塊介紹
3. 數(shù)據(jù)流程描述
4. 邏輯架構(gòu)設(shè)計
5. 功能描述
6. 系統(tǒng)架構(gòu)
第二章 離線數(shù)據(jù)入庫
1. 數(shù)據(jù)上傳
2. 創(chuàng)建數(shù)據(jù)表
3. 數(shù)據(jù)拆分
4. 數(shù)據(jù)表加載
第三章 離線數(shù)據(jù)整理
1. 業(yè)務(wù)SQL語句編寫
2. 整理SQL語句生成結(jié)果表的結(jié)構(gòu)及字段
3. 根據(jù)結(jié)果表所需的字段,在原始表中抽取該字段
4. 數(shù)據(jù)加工及入庫
5. 創(chuàng)建索引
第四章 實時數(shù)據(jù)生成及計算
1. Mysql 數(shù)據(jù)寫入
2. canal 解析mysql實時數(shù)據(jù)寫入本地
3. Flume收集數(shù)據(jù)將數(shù)據(jù)上傳至集群
4. SparkStreaming 實時計算
猜你喜歡:
哪些領(lǐng)域適合應(yīng)用機器學(xué)習(xí)?【大數(shù)據(jù)培訓(xùn)】
2020-04-23Spark生態(tài)系統(tǒng)包含哪些組件?【大數(shù)據(jù)培訓(xùn)】
2020-04-23機器學(xué)習(xí)是什么?機器學(xué)習(xí)分為幾類?
2020-04-23如何通過ECharts js實現(xiàn)數(shù)據(jù)可視化面板[大數(shù)據(jù)培訓(xùn)視頻教程]
2020-03-22Kafka的常用API介紹[大數(shù)據(jù)培訓(xùn)]
2020-01-03Mysql幫助信息命令是什么意思?[大數(shù)據(jù)培訓(xùn)]
2019-11-13