国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

網(wǎng)頁(yè)爬蟲 - Python爬蟲如何正確判斷頁(yè)面是否可以爬取?

瀏覽:116日期:2022-09-03 13:50:21

問(wèn)題描述

用Python27些爬蟲,想要爬取一些網(wǎng)站,我需要判斷網(wǎng)頁(yè)是否可以爬取,第一反應(yīng)是通過(guò)狀態(tài)碼來(lái)判斷,但是寫完運(yùn)行后發(fā)現(xiàn)有許多目標(biāo)網(wǎng)站訪問(wèn)它不存在的頁(yè)面時(shí)會(huì)返回一個(gè)404錯(cuò)誤頁(yè)面,可他的狀態(tài)碼卻是200,結(jié)果爬回來(lái)好多根本就不存在的頁(yè)面。這個(gè)本來(lái)是網(wǎng)站設(shè)置的問(wèn)題,但是現(xiàn)在也不能用狀態(tài)碼來(lái)判斷了,請(qǐng)問(wèn)還有什么方法可以正確判斷一個(gè)頁(yè)面是不是404該不該爬?

問(wèn)題解答

回答1:

首先, 200 狀態(tài)碼,是網(wǎng)絡(luò)連接狀態(tài), 所以你只判斷200并不能滿足所有網(wǎng)站。

其次, 寫爬蟲嘛, 你應(yīng)該實(shí)際去看看這些網(wǎng)站的規(guī)則是什么,可以先人工判斷下, 找找規(guī)律, 比如看看網(wǎng)頁(yè)返回內(nèi)容是不是有什么特點(diǎn)之類的。

回答2:

做個(gè)網(wǎng)頁(yè)內(nèi)容的判斷,如果他網(wǎng)頁(yè)里面沒(méi)有內(nèi)容就直接返回。

回答3:

就算是頁(yè)面狀態(tài)碼200,返回的404頁(yè)面,應(yīng)該和正常能爬取的頁(yè)面html有不同的html元素吧,根據(jù)有沒(méi)有特定的html元素來(lái)判斷是不是404頁(yè)面也行的

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 保亭| 龙州县| 呼玛县| 铅山县| 二手房| 邵阳市| 大冶市| 宜君县| 黄陵县| 江口县| 聂拉木县| 大埔县| 冷水江市| 乌苏市| 乌鲁木齐县| 高青县| 桐庐县| 辽阳县| 耿马| 神木县| 安丘市| 柳江县| 将乐县| 武鸣县| 蓝田县| 紫云| 巴林左旗| 武平县| 莆田市| 兴安县| 青岛市| 枞阳县| 兴义市| 南投市| 凤冈县| 石景山区| 泸州市| 临西县| 顺义区| 德安县| 景泰县|