文章詳情頁

python - 請教這個頁面中的這兩個信息能否不用無頭瀏覽器爬取到?

瀏覽：120日期：2022-09-22 16:46:47

問題描述

在爬取'http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm'這個頁面的時候, 發現'擅長'和'執業經歷'這兩個信息通過beautifulsoup是取不到的, 我選取這兩個信息的代碼如下:

soup.select(’#full_DoctorSpecialize’).get_text(strip=True)soup.select(’#full’).get_text(strip=True)

查詢頁面發現這兩個信息好像是通過JS查詢的結果, 除了把網頁全部正則表達式匹配的方法, 請教各位: 1, 這兩個信息能否直接取到? 2, 除了類似'Selenium'這樣的工具, 是否還有其他方式能夠取到這兩個信息?3, 能否通過分析查詢接口的方式解決?

謝謝

問題解答

回答1：

可能這個頁面，你要抓的這個數據，是頁面加載后，使用js渲染出來的。也就是說，這個#full_DoctorSpecialize里面的數據是ajax，從服務器上拿回來的。具體要如何拿這樣的數據，你可以百度下 phantomjs ，你一定會有收獲的。

回答2：

這2個信息可以直接獲取，只是信息包含在JS塊中BigPipe.onPageletArrive({這個里面}) , 可以通過正則表達式獲取。這個里面是一段JSON格式的字符串。匹配之后轉換為json還是很容易處理的。想要通過查詢接口獲取的話，應該是可以的，不過得分析JS代碼，這個太麻煩，可以通過抓包工具來抓它的http請求。然后看看是那個請求返回的數據。相比較而言還是寫正則匹配比較快。

回答3：

這個就像樓上說的是js渲染的，內容在js代碼里面，可以正則匹配js代碼里面的元素，得到你想要的信息

Python 編程

上一條：python3 snmp大家都用什么擴展模塊下一條：PYTHON 根目錄主程序導入子目錄下的所有模塊，提示模塊找不到

相關文章：

1. 老師我是一個沒有學過php語言的準畢業生我希望您能幫我一下2. mysql如何配置遠程php外網鏈接數據庫3. PHP類中的$this4. PHP單例模式5. php自學從哪里開始？6. Thinkphp 下載地址找不到了？7. index.php錯誤，求指點8. nginx 504 Gateway Time-out 請問如何設置9. 在cmd下進入mysql數據庫，可以輸入中文，但是查看表信息，不顯示中文，是怎么回事，怎新手，請老師10. 導入數據庫不成功

排行榜

					
					angular.js - 下圖的函數有什么作用？
macos - mac下docker如何設置代理
index.php錯誤，求指點
jquery - angularjs的數據為什么渲染不到頁面上?數據獲取到了,我的代碼哪里出了錯了?
PHP類中的$this
javascript - web網頁版app返回上一頁按鈕在ios設備失效怎么辦？安卓上可以，代碼如下，請大神幫助，萬分感謝。
node.js - vue express 前后端分離 登錄驗證 與 權限控制問題
angular.js - 全站用的angular，但是像下面描述的這樣強交互的功能用angular該用什么思路去做呢？
android - 百度地圖加載完成監聽
android - Apk 中找不到r類文件
PHP單例模式
				

熱門標簽

国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

python - 請教這個頁面中的這兩個信息能否不用無頭瀏覽器爬取到?