網(wǎng)頁(yè)爬蟲(chóng) - python爬蟲(chóng),需要爬取的數(shù)據(jù)沒(méi)在網(wǎng)頁(yè)源代碼中,怎么處理?
問(wèn)題描述
我想抓取直播吧賽事的比分:直播吧鏈接,可是我用Scrapy只能抓取到日期,主客隊(duì)等。我的問(wèn)題是:比分是不是通過(guò)Script加載出來(lái)的?是不是在這個(gè)腳本中bf4.js中?這種Request Method:GET的情況如何準(zhǔn)確獲取出比分如下圖?通過(guò)開(kāi)發(fā)者工具查看出的網(wǎng)頁(yè)源代碼如下:<li label='足球,中甲,武漢卓爾' data-time='2017-06-24 15:00'>15:00 <b>中甲第15輪</b> 云南麗江 <img src='https://duihui.qiumibao.com/zuqiu/yunnanlijiang.png' > <span> - </span> <img src='https://duihui.qiumibao.com/zuqiu/wuhanzhuoer.png' > 武漢卓爾 <a href='http://www.intensediesel.com/zhibo/zuqiu/2017/0624yunnanlijiangvswuhanzhuoer.htm' target='_blank'>武漢文體 廣州競(jìng)賽 PPTV</a> <a target='_blank'>文字</a> <a target='_blank'>手機(jī)看直播</a> <a target='_blank'>比分</a> <a target='_blank'>歐冠足球新服</a> </li>
即<span> - </span>中比分沒(méi)顯示,如何才能抓取渲染完成出來(lái)的比分網(wǎng)頁(yè)呢?
問(wèn)題解答
回答1:數(shù)據(jù)在https://bifen4pc.qiumibao.com/json/list.htm?74520
那就使用Selenium 來(lái)獲取吧,
鏈接描述
相關(guān)文章:
1. 網(wǎng)頁(yè)爬蟲(chóng) - python爬蟲(chóng)用BeautifulSoup爬取<s>元素并寫(xiě)入字典,但某些div下沒(méi)有這一元素,導(dǎo)致自動(dòng)寫(xiě)入下一條,如何解決?2. 網(wǎng)頁(yè)爬蟲(chóng) - Python爬蟲(chóng)返回狀態(tài)碼與實(shí)際情況不符?3. 網(wǎng)頁(yè)爬蟲(chóng) - Python爬蟲(chóng)運(yùn)行內(nèi)存占用過(guò)高導(dǎo)致電腦停止響應(yīng)4. 網(wǎng)頁(yè)爬蟲(chóng) - Python爬蟲(chóng)入門(mén)知識(shí)5. 網(wǎng)頁(yè)爬蟲(chóng) - Python爬蟲(chóng)如何正確判斷頁(yè)面是否可以爬取?6. 網(wǎng)頁(yè)爬蟲(chóng) - python爬蟲(chóng)翻頁(yè)問(wèn)題,請(qǐng)問(wèn)各位大神我這段代碼怎樣翻頁(yè),還有價(jià)格要登陸后才能看到,應(yīng)該怎么解決7. 網(wǎng)頁(yè)爬蟲(chóng) - python爬蟲(chóng)爬圖,報(bào)錯(cuò)<urlopen error no hsot given>.
