網(wǎng)頁爬蟲 - Python使用requests庫搜到的圖片src下的url是正在加載的圖片
問題描述
我想下載http://www.chuiyao.com/manhua/3670/393022.html里面的圖片,但用下面的代碼搜到的圖片是這個http://www.chuiyao.com/static/skin5/images/pic_loading.gif。headers我是用的chrome瀏覽器network下的393022.html的Request Headers
import requestsfrom lxml import htmldef main(): url = 'http://www.chuiyao.com/manhua/3670/393022.html' headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding':'gzip, deflate, sdch','Accept-Language':'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4','Cache-Control':'no-cache','Connection':'keep-alive','Cookie':'__cfduid=d1fd7e3291dbb9fc63a4884a0441f78ee1486866309; bdshare_firstime=1486866314583; UM_distinctid=15af3096a8336d-08f956321b6c03-1d3b6853-1fa400-15af3096a84296; qtmhhis=2017-2-21-18-47-47%5E%5E%u6597%u7834%u82CD%u7A79%5E%5E%u7B2C189%u8BDD%20%u6BD2%u9B54%u6591%5E%5E1%5E%5E393022%5E%5E3670_ShG_; Hm_lvt_1317de45b1b9f5aacfe358d1694b22f9=1488746420,1490136167,1490136167,1490136753; Hm_lpvt_1317de45b1b9f5aacfe358d1694b22f9=1490136753; CNZZDATA1254167849=49322564-1486864570-https%253A%252F%252Fwww.google.com%252F%7C1490131571','Host':'www.chuiyao.com','Pragma':'no-cache','Referer':'http://www.chuiyao.com/manhua/3670/','Upgrade-Insecure-Requests':'1','User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' } page = requests.get(url, headers = headers) tree = html.fromstring(page.content) print(tree.xpath(’//*[@id='qTcms_pic']/@src’)) if __name__ == '__main__': main()
為什么會這樣?
問題解答
回答1:圖片是js動態(tài)加載的,你的爬蟲只是獲取了靜態(tài)頁面。
主要的加載圖片的功能在這個js文件里:
www.chuiyao.com/static/skin5/js/wdshow.js?v=20160713.1
你自己用python的相關(guān)模塊來模擬該js的功能,即可解析出圖片地址。
回答2:img 標簽的內(nèi)容是通過調(diào)用 js 的 Show_Pic_w() 方法在頁面加載完成后動態(tài)替換的,你用 python 是獲取不到和瀏覽器一樣的頁面的
相關(guān)文章:
1. html5 - 有可以一次性把所有 css外部樣式轉(zhuǎn)為html標簽內(nèi)style=" "的方法嗎?2. javascript - 原生canvas中如何獲取到觸摸事件的canvas內(nèi)坐標?3. javascript - 如何將一個div始終固定在某個位置;無論屏幕和分辨率怎么變化;div位置始終不變4. html - vue項目中用到了elementUI問題5. python - 如何判斷爬蟲已經(jīng)成功登陸?6. javascript - 求解答:實例對象調(diào)用constructor,此時constructor內(nèi)的this的指向?7. javascript - 這不是對象字面量函數(shù)嗎?為什么要new初始化?8. javascript - vscode alt+shift+f 格式化js代碼,通不過eslint的代碼風格檢查怎么辦。。。9. javascript - 有什么比較好的網(wǎng)頁版shell前端組件?10. javascript - [js]為什么畫布里不出現(xiàn)圖片呢?在線等
