文章詳情頁

python - 用scrapy寫爬蟲,發送請求后,服務器全都直接返回202,該怎么辦呢?

瀏覽：148日期：2022-06-27 13:36:39

問題描述

我爬取的是中國裁判文書網,之前還是好好的,我發送請求,服務器返回200,然后我處理body中的數據

但是一個星期之前,突然所有的請求都返回202,然后response body里也是空的,完全拿不到數據,我在回調函數中阻塞等待while(response.status == 202)就sleep也沒用,status并不會變化

該怎么辦呢?

我使用了crwalera的ip代理服務,之前有段時間也是202,但是過了一天就好了,但這次已經持續了一個星期了,很奇怪

我覺得就是目標網站負載太大,所以采用異步的方式發送數據,但是我在scrapy里有怎么正確地收到他的數據呢?

問題解答

回答1：

這種情況通常是違規抓取，服務端進行了防抓取限制。如果是合法抓取的話，可以和內容方面溝通，看看是不是有誤傷，如果是非法抓取，還建議不要這樣做了，嚴重的話可能有被起訴的風險

回答2：

被防采集了，可以試試換ip或尋找防采的限制漏洞

Python 編程

上一條：Python Selenium WebDriver如何刷新當前頁面下一條：python - 網站對賬號訪問頻率限制

相關文章：

1. javascript - nodejs 使用request-promise發送請求后返回結果無法獲取。

排行榜

					
					docker gitlab 如何git clone？
debian - docker依賴的aufs-tools源碼哪里可以找到??？
docker內創建jenkins訪問另一個容器下的服務器問題
golang - 用IDE看docker源碼時的小問題
如何解決Centos下Docker服務啟動無響應，且輸入docker命令無響應？
javascript - 求解答：實例對象調用constructor，此時constructor內的this的指向？
javascript - vscode alt+shift+f 格式化js代碼，通不過eslint的代碼風格檢查怎么辦。。。
angular.js - Angular-Strap  模態框(Modal) 報錯
java - 如何寫一個intellij-idea插件，實現編譯時修改源代碼的目的
css - div外層有一圈白色
IntelliJ IDEA無法解析導入javax.servlet。*;
				

熱門標簽

国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

python - 用scrapy寫爬蟲,發送請求后,服務器全都直接返回202,該怎么辦呢?