文章詳情頁

python 爬蟲解析效率如何提升?

瀏覽：141日期：2022-06-29 17:26:48

問題描述

現在采用的是在windows 環境下采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執行程序的效率卡在計算密集的解析線程中，如果只是增加解析線程數量的話，反而增加線程切換開銷速度變慢。

請問下有什么辦法可以較為明顯的提升解析效率？

根據兩位大腿的說明準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1：

其實我覺得, 你在前面N個爬取線程可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.1個解析線程換成進程池,多開幾個進程去計算密集處理, 其余應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2：

我的做法是多進程。多進程的好處是當單機性能不夠的時候，可以隨時切換為分布式爬蟲。

回答3：

可以網上找下tornade異步爬蟲吧,我正在用這個

Python 編程

上一條：python - 想做一個批量ping的工具，請問用什么方法更快更好一點？下一條：python - django中找不到css等靜態文件

相關文章：

1. javascript - 關于<a>元素與<input>元素的JS事件運行問題2. css3 - 純css實現點擊特效3. java - 為什么第一個線程已經釋放了鎖，第二個線程卻不行？4. mysql - 記得以前在哪里看過一個估算時間的網站5. python - 有什么好的可以收集貨幣基金的資源?6. javascript - vscode alt+shift+f 格式化js代碼，通不過eslint的代碼風格檢查怎么辦。。。7. 大家好，我想請問一下怎么做搜索欄能夠搜索到自己網站的內容。8. python - 啟動Eric6時報錯：’qscintilla_zh_CN’ could not be loaded9. html - vue項目中用到了elementUI問題10. mysql - 查詢字段做了索引為什么不起效,還有查詢一個月的時候數據都是全部出來的，如果分拆3次的話就沒問題，為什么呢。

排行榜

					
					java - 為什么第一個線程已經釋放了鎖，第二個線程卻不行？
css3 - 純css實現點擊特效
javascript - 關于<a>元素與<input>元素的JS事件運行問題
mysql - 記得以前在哪里看過一個估算時間的網站
docker內創建jenkins訪問另一個容器下的服務器問題
javascript - nodejs 如何同步執行某些模塊函數?
javascript - 求解答：實例對象調用constructor，此時constructor內的this的指向？
javascript - vscode alt+shift+f 格式化js代碼，通不過eslint的代碼風格檢查怎么辦。。。
大家好，我想請問一下怎么做搜索欄能夠搜索到自己網站的內容。
java - 如何寫一個intellij-idea插件，實現編譯時修改源代碼的目的
mysql - 查詢字段做了索引為什么不起效,還有查詢一個月的時候數據都是全部出來的，如果分拆3次的話就沒問題，為什么呢。
				

熱門標簽

国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

python 爬蟲 解析效率如何提升?

python 爬蟲解析效率如何提升?