用戶提交帶有惡意的數(shù)據(jù)與SQL語句進行字符串方式的拼接,從而影響了SQL語句的語義,最終產(chǎn)生數(shù)據(jù)泄露的現(xiàn)象。 防止SQL注入可以將SQL語句參數(shù)化... 查看全文>>
Python+大數(shù)據(jù)技術文章2023-01-14 |傳智教育 |防止SQL注入
為滿足用戶快速從網(wǎng)頁采集數(shù)據(jù)的需求,市面上出現(xiàn)了一些具有可視化界面的網(wǎng)絡爬蟲工具,如八爪魚采集器、火車頭采集器等。除了直接使用這些現(xiàn)成的工具之外,我們也可以開發(fā)一個自己的網(wǎng)絡爬蟲。那么,哪些語言可以用于開發(fā)網(wǎng)絡爬蟲程序呢?目前,開發(fā)網(wǎng)絡爬蟲程序的語言主要有PHP、Go、C++、Java、Python這5種,簡要介紹如下。 查看全文>>
Python+大數(shù)據(jù)技術文章2023-01-12 |傳智教育 |怎樣開發(fā)網(wǎng)絡爬蟲
Hive的函數(shù)分為兩大類:內(nèi)置函數(shù)(Built-in Functions)、用戶定義函數(shù)UDF(User-Defined Functions)。Hive的函數(shù)分為兩大類:內(nèi)置函數(shù)(Built-in Functions)、用戶定義函數(shù)UDF(User-Defined Functions): 內(nèi)置函數(shù)可分為:數(shù)值類型函數(shù)、日期類型函數(shù)、字符串類型函數(shù)、集合函數(shù)、條件函數(shù)等... 查看全文>>
Python+大數(shù)據(jù)技術文章2023-01-03 |傳智教育 |內(nèi)置函數(shù)和用戶定義函數(shù)
MySQL安裝完成后,會自動配置為名稱叫做:mysqld的服務,可以被systemctl所管理,我們在進行系統(tǒng)的配置時,主要修改root密碼和允許root遠程登錄。 查看全文>>
Python+大數(shù)據(jù)技術文章2023-01-03 |傳智教育 |MySQL8.0版本在CentOS系統(tǒng)的配置教程
MapReduce的思想核心是“先分再合,分而治之”。所謂“分而治之”就是把一個復雜的問題,按照一定的“分解”方法分為等價的規(guī)模較小的若干部分,然后逐個解決,分別找出各部分的結(jié)果,然后把各部分的結(jié)果組成整個問題的最終結(jié)果。 查看全文>>
Python+大數(shù)據(jù)技術文章2022-12-29 |傳智教育 |MapReduce思想
Hadoop需要Kerberos來進行認證,以啟動服務來說,在后面配置 hadoop 的時候我們會給 對應服務指定一個Kerberos的賬戶,比如 namenode 運行在cdh0機器上,我們可能將 namenode 指定給了nn/cdh0.itcast.cn@ITCAST.CN 這個賬戶, 那么 想要啟動 namenode 就必須認證 這個賬戶才可以。 查看全文>>
Python+大數(shù)據(jù)技術文章2022-12-29 |傳智教育 |HDFS相關的Kerberos賬戶配置
聚焦網(wǎng)絡爬蟲面向有特殊需求的人群,它會根據(jù)預先設定的主題順著某個垂直領域進行抓取,而不是漫無目的地隨意抓取。與通用網(wǎng)絡爬蟲相比,聚焦網(wǎng)絡爬蟲會根據(jù)一定的網(wǎng)頁分析算法對網(wǎng)頁進行篩選,保留與主題有關的網(wǎng)頁鏈接,舍棄與主題無關的網(wǎng)頁鏈接。其目的性更強。聚焦網(wǎng)絡爬蟲的工作原理如圖1-2所示。 查看全文>>
Python+大數(shù)據(jù)技術文章2022-12-21 |傳智教育 |python網(wǎng)絡爬蟲,聚焦爬蟲和通用爬蟲
三級模式是指數(shù)據(jù)庫管理系統(tǒng)從三個層次來管理數(shù)據(jù),分別是外部層(ExternalLevel)、概念層(Conceptual Level)和內(nèi)部層(Internal Level)。這三個層次分別對應三種不同類型的模式,分別是外模式(External Schema)、概念模式(Conceptual Schema)和內(nèi)模式(Internal Schema)。 查看全文>>
Python+大數(shù)據(jù)技術文章2022-12-20 |傳智教育 |三級模式和二級映像