更新時(shí)間:2019年01月18日13時(shí)48分 來源:傳智播客 瀏覽次數(shù):
爬蟲是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。
我們平常使用搜索引擎瀏覽網(wǎng)頁,有很多和預(yù)期的信息不匹配的結(jié)果;并且信息量巨大,有了結(jié)果以后還需要花費(fèi)很大的精力進(jìn)行篩選信息。爬蟲應(yīng)運(yùn)誕生,我們可以寫一段腳本或程序,讓他根據(jù)我們的需求按照設(shè)定的規(guī)則進(jìn)行抓取網(wǎng)頁信息,并篩選出我們需要的結(jié)果。
首先,在PHP中可以獲取萬維網(wǎng)頁面的函數(shù)有很多,例如:file_get_contents()或者curl擴(kuò)展,再或者還有獲取緩沖的ob_get_contents()等,最實(shí)用也是最常用的就是file_get_contents()了。例:
所以,我們可以利用file_get_contents()來進(jìn)行爬蟲的開發(fā)。
步驟:
1. 分析url規(guī)則
2. 根據(jù)規(guī)則進(jìn)行循環(huán)爬取內(nèi)容
3. 根據(jù)需求進(jìn)行正則匹配需要的內(nèi)容(可以根據(jù)實(shí)際要求進(jìn)行)
4. 整合結(jié)果(寫入文件)
代碼:
結(jié)果:
打開其中前兩頁的效果:
北京校區(qū)