国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

您的位置:首頁技術(shù)文章
文章詳情頁

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問

瀏覽:150日期:2022-06-30 08:28:51

問題描述

在使用scrapy抓取數(shù)據(jù)時(shí),利用itemloader這個(gè)類,使用selector取出的值為空時(shí),進(jìn)入scrapy.Field()里調(diào)用filter(),selector取值不為空的確返回'有值',如果selector取出[]或'',那么value進(jìn)入filter()之后,并不會返回'無值'

def filter(value): if value:return '有值' else:return '無值' # 下面就簡寫了,熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值,經(jīng)過filyer()之后變成'無值'

問題解答

回答1:

謝邀~不太了解Scrapy,所以題主這個(gè)我不太好說我用PHP自己寫的爬蟲大體思路是:1.先是根據(jù)正則和一些循環(huán),把要收集的頁面放到隊(duì)列里,按類別分類,例如分頁的列表頁一個(gè)隊(duì)列,列表里的數(shù)據(jù)內(nèi)容頁一個(gè)隊(duì)列。2.然后利用xpath來爬取相關(guān)內(nèi)容頁的數(shù)據(jù),爬取的過程中對一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù),按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣,我絕對大部分爬蟲框架也大概都是這種思路吧,無非是在此基礎(chǔ)上增加了,反爬機(jī)制,多線程,多進(jìn)程,增量爬取等等功能。所以,題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 大邑县| 灵寿县| 房产| 通道| 临清市| 洛浦县| 青河县| 孝义市| 黑山县| 贵定县| 柳河县| 德安县| 饶河县| 资兴市| 东乡族自治县| 德保县| 翁牛特旗| 马关县| 本溪| 韩城市| 平乡县| 扬中市| 汝城县| 松滋市| 祁门县| 哈尔滨市| 友谊县| 乌鲁木齐市| 盐源县| 大余县| 威远县| 满洲里市| 独山县| 延边| 哈密市| 昭苏县| 太原市| 永嘉县| 札达县| 东城区| 阿合奇县|