国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

您的位置:首頁技術(shù)文章
文章詳情頁

Python如何利用Selenium或者PhantomJS爬取動(dòng)態(tài)網(wǎng)頁內(nèi)容

瀏覽:93日期:2022-06-30 17:58:04

問題描述

想用python做股票量化交易,第一步就是獲取股票的歷史數(shù)據(jù)。訪問http://data.eastmoney.com/sto...網(wǎng)頁,將網(wǎng)頁源碼打開后看不見表格中的數(shù)據(jù),據(jù)說是利用ajax技術(shù)加載的。在網(wǎng)上看見可以利用selenium和phantomJS來獲取這些動(dòng)態(tài)網(wǎng)頁內(nèi)容,但是不知道如何獲取完整源碼。請(qǐng)高手指點(diǎn)迷津

問題解答

回答1:

事實(shí)上,我剛才試了一下,頁面不是用xhr加載的,在頁面的源代碼中已經(jīng)有了,然后調(diào)用了一個(gè)類把數(shù)據(jù)加載為一個(gè)table。比如,首頁的數(shù)據(jù):

Python如何利用Selenium或者PhantomJS爬取動(dòng)態(tài)網(wǎng)頁內(nèi)容

然后,提取就直接使用re提取就可以了,得到文本以后json解析就好了。先寫到這里。+++++++++++++++++++++++++++++++++++++++++

然后,就是這個(gè)網(wǎng)站不使用xhr加載數(shù)據(jù)而是使用的js來加載json數(shù)據(jù),動(dòng)態(tài)解析來顯示。具體分析需要用到j(luò)s的知識(shí),如果你了解也可以自己嘗試解析。

我嘗試了一下。

from urllib.parse import quoteimport timeimport requestsurl = 'http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=TSTC&st={sortType}&sr={sortRule}&p={page}&ps={pageSize}&js=var {jsname}=(x){param}'params = { 'sortType': 1, 'sortRule': 1, 'page': 2, 'pageSize': 50, 'jsname': 'Aafdafgq', # 這里使用的是隨機(jī)字符串,8位 'param': '&mkt=0&rt='}params['param'] += str(int(time.time()/30)) # 當(dāng)前時(shí)間url = url.format(**params)url = quote(url, safe=':=/?&()')req = requests.get(url)req.text

Python如何利用Selenium或者PhantomJS爬取動(dòng)態(tài)網(wǎng)頁內(nèi)容

回答2:

用這個(gè)組合 好處是簡(jiǎn)單暴力,壞處是效率較低。相當(dāng)于打開一個(gè)你看不到的瀏覽器加載頁面,再把運(yùn)算好的結(jié)果讀取。新人學(xué)爬蟲的話 推薦 python網(wǎng)絡(luò)數(shù)據(jù)采集 這本動(dòng)物書。你需要的說明在采集動(dòng)態(tài)頁面那章。這書很薄 很實(shí)用。

回答3:

我對(duì)js和json都不太了解,剛剛爬蟲入門。經(jīng)過你的提示,我再查看了一下源碼,發(fā)現(xiàn)在defjson里面有這些數(shù)據(jù),不明白是怎樣把json里的數(shù)據(jù)顯示到tbody里面的。我用pandas的read_html可以抓到這些數(shù)據(jù),但是最后兩列會(huì)丟失。看來我得先去看看js和json

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 晋中市| 新密市| 西平县| 平和县| 星座| 龙岩市| 泸溪县| 积石山| 河西区| 绥中县| 吉木萨尔县| 滕州市| 玉树县| 马鞍山市| 上犹县| 文山县| 石城县| 东山县| 资阳市| 平乡县| 襄垣县| 饶河县| 抚顺县| 永修县| 缙云县| 安福县| 灵璧县| 巴彦淖尔市| 四川省| 仁化县| 寿宁县| 荔波县| 乃东县| 台山市| 曲麻莱县| 平度市| 和平县| 区。| 岱山县| 余干县| 来宾市|