更新時(shí)間:2018年02月08日11時(shí)18分 來源:傳智播客 瀏覽次數(shù):
6節(jié)課掌握Python爬蟲 | ||
爬蟲就是模擬客戶端(瀏覽器)發(fā)送網(wǎng)絡(luò)請求,獲取響應(yīng),按照規(guī)則提取數(shù)據(jù)的程序 模擬客戶端(瀏覽器)發(fā)送網(wǎng)絡(luò)請求 : 照著瀏覽器發(fā)送一模一樣的請求…… | ||
爬蟲就是模擬客戶端(瀏覽器)發(fā)送網(wǎng)絡(luò)請求,獲取響應(yīng),按照規(guī)則提取數(shù)據(jù)的程序 模擬客戶端(瀏覽器)發(fā)送網(wǎng)絡(luò)請求 : 照著瀏覽器發(fā)送一模一樣的請求……
1、http需要了解的知識(shí)
1、url
2、知道url地址的規(guī)律和總得頁碼數(shù):構(gòu)造url地址的列表
3、start_url
2、發(fā)送請求,獲取響應(yīng)
1、requests
3、提取數(shù)據(jù)
1、返回json字符串:json模塊
2、返回的是html字符串:lxml模塊配合xpath提取數(shù)據(jù)
4、階段文件保存
北京校區(qū)