文章詳情頁

python如何爬取動態(tài)網(wǎng)站

瀏覽：4日期：2022-07-11 17:01:47

python有許多庫可以讓我們很方便地編寫網(wǎng)絡(luò)爬蟲，爬取某些頁面，獲得有價值的信息！但許多時候，爬蟲取到的頁面僅僅是一個靜態(tài)的頁面，即網(wǎng)頁的源代碼，就像在瀏覽器上的“查看網(wǎng)頁源代碼”一樣。一些動態(tài)的東西如javascript腳本執(zhí)行后所產(chǎn)生的信息，是抓取不到的，這里暫且先給出這么一些方案，可用于python爬取js執(zhí)行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫動態(tài)抓取頁面

js腳本是通過瀏覽器來執(zhí)行并返回信息的，所以，抓取js執(zhí)行后的頁面，一個最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個開源的瀏覽器引擎，python提供了許多庫可以調(diào)用這個引擎，dryscrape便是其中之一，它調(diào)用webkit引擎來處理包含js等的網(wǎng)頁！

import dryscrape# 使用dryscrape庫動態(tài)抓取頁面def get_url_dynamic(url): session_req=dryscrape.Session() session_req.visit(url) #請求頁面 response=session_req.body() #網(wǎng)頁的文本 #print(response) return responseget_text_line(get_url_dynamic(url)) #將輸出一條文本

這里對于其余包含js的網(wǎng)頁也是適用的！雖然可以滿足抓取動態(tài)頁面的要求，但缺點還是很明顯的：慢！太慢了，其實想一想也合理，python調(diào)用 webkit請求頁面，而且等頁面加載完，載入js文件，讓js執(zhí)行，將執(zhí)行后的頁面返回，慢一點也是應(yīng)該的！除外還有很多庫可以調(diào)用 webkit：PythonWebkit，PyWebKitGit，Pygt（可以用它寫個瀏覽器），pyjamas等等，聽說它們也可以實現(xiàn)相同的功能！

1.2 selenium web測試框架

selenium是一個web測試框架，它允許調(diào)用本地的瀏覽器引擎發(fā)送網(wǎng)頁請求，所以，它同樣可以實現(xiàn)抓取頁面的要求。

# 使用 selenium webdriver 可行，但會實時打開瀏覽器窗口

def get_url_dynamic2(url): driver=webdriver.Firefox() #調(diào)用本地的火狐瀏覽器，Chrom 甚至 Ie 也可以的 driver.get(url) #請求頁面，會打開一個瀏覽器窗口 html_text=driver.page_source driver.quit() #print html_text return html_textget_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失為一條臨時的解決方案！與selenium類似的框架還有一個windmill，感覺稍復(fù)雜一些，就不再贅述！

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因：

1. selenium 3.x開始，webdriver/firefox/webdriver.py的__init__中，executable_path='geckodriver'；而2.x是executable_path='wires'

2. firefox 47以上版本，需要下載第三方driver，即geckodriver

還需要一些特殊操作：

1. 下載 geckodriverckod 地址：

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可：

sudo mv ～/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運行報錯：

driver = webdriver.chrome()TypeError: ’module’ object is not callable

解決方案：瀏覽器的名稱需要大寫Chrome和Firefox，Ie

2. 通過

content = driver.find_element_by_class_name(’content’)

來定位元素時，該方法返回的是FirefoxWebElement，想要獲取包含的值時，可以通過

value = content.text

到此這篇關(guān)于python如何爬取動態(tài)網(wǎng)站的文章就介紹到這了,更多相關(guān)python怎么爬動態(tài)網(wǎng)站內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：python如何運行js語句下一條：python如何停止遞歸

相關(guān)文章：

1. 匹配模式 - XSL教程 - 42. WMLScript的語法基礎(chǔ)3. CSS3中Transition屬性詳解以及示例分享4. html小技巧之td,div標簽里內(nèi)容不換行5. xml中的空格之完全解說6. ASP中if語句、select 、while循環(huán)的使用方法7. ASP中解決“對象關(guān)閉時,不允許操作。”的詭異問題……8. msxml3.dll 錯誤 800c0019 系統(tǒng)錯誤:-2146697191解決方法9. WML語言的基本情況10. XML入門的常見問題(四)

排行榜

					
					SSM框架整合之Spring+SpringMVC+MyBatis實踐步驟
Java 生成帶Logo和文字的二維碼
Java搜索引擎Compass Framework 0.8.0 新版發(fā)布
ant design vue datepicker日期選擇器中文化操作
詳解如何實現(xiàn)phpoffice的excel導(dǎo)入功能解耦
Android 使用騰訊X5瀏覽器上傳圖片的示例
IDEA解決src和resource下創(chuàng)建多級目錄的操作
前后端ajax和json數(shù)據(jù)交換方式
vue異步更新dom的實現(xiàn)淺析
Python GUI編程學習筆記之tkinter控件的介紹及基本使用方法詳解
Python select及selectors模塊概念用法詳解