文章詳情頁

網(wǎng)頁爬蟲 - python爬蟲用BeautifulSoup爬取<s>元素并寫入字典，但某些div下沒有這一元素，導(dǎo)致自動寫入下一條，如何解決？

瀏覽：172日期：2022-08-03 08:34:07

問題描述

新手寫二手車網(wǎng)站爬蟲，爬賣價(jià)和原價(jià)，原價(jià)以<s>刪除線形式放在下。但是遇到?jīng)]有標(biāo)記原價(jià)，也就是并沒有<s>標(biāo)簽的情況下，會自動把下一個(gè)<s>內(nèi)的信息寫入上一條占位。試了用if len()判斷，但是毫無效果。。請問這種情況應(yīng)當(dāng)如何解決，把沒有<s>標(biāo)簽的情況正確提取出來，用“”或“nodata”顯示？

網(wǎng)頁源代碼如下，同時(shí)包含原價(jià)與賣價(jià)的：

急售 超值 8.40萬 <s>17.36萬</s>

沒有原價(jià)標(biāo)簽的：

3.70萬

代碼如下，

import requestsfrom bs4 import BeautifulSoup

def GetInfo(url):

res=requests.get(url).textsoup=BeautifulSoup(res,’html.parser’)names=soup.select(’p.list > ul > li > p > p.infoBox > a’)years=soup.select(’p.list > ul > li > p > p.fc-gray’)prices0=soup.select(’p.list > ul > li > p > p.priType-s > s’)prices1=soup.select(’p.list > ul > li > p > p.priType-s > span > i’)for name,year,price0,price1 in zip(names,years,prices0,prices1): data={’name’:name.get_text(),’year’:year.get_text().strip().replace(’|’,’’).replace(’ ’,’’),’price0’:price0.get_text(),’price1’:price1.get_text().strip() }print(data)return(data)

def Pages():

pageurl=’https://www.guazi.com/sh/buy/o{}/’urls=[pageurl.format(str(i)) for i in range(1,11,1)]for url in urls: GetInfo(url)

Pages()

問題解答

回答1：

大體思路就是多加選擇器，讓它為空，然后你做判斷

回答2：

prices0=soup.select(’p.list > ul > li > p > p.priType-s > span> i’)prices1=soup.select(’p.list > ul > li > p > p.priType-s > span + s’)

試試看。如果再不行就把整段給你拿下來用 regex 來提取

回答3：

試試這個(gè)思路：1.每一個(gè)二手車會有一個(gè)塊來顯示，..之類的2.在每一個(gè)塊當(dāng)中，再來進(jìn)行原價(jià)，現(xiàn)價(jià)的抓取這樣就不會因一個(gè)二手車沒有原價(jià)而把下一個(gè)價(jià)位填充到上一個(gè)車的原價(jià)上

Python 編程

上一條：python可以在excel打開的情況下操作嗎下一條：python - UTC格式轉(zhuǎn)換成本地時(shí)間

排行榜

					
					python 計(jì)算兩個(gè)時(shí)間相差的分鐘數(shù)，超過一天時(shí)計(jì)算不對
javascript - 使用form進(jìn)行頁面跳轉(zhuǎn)，但是很慢，如何加一個(gè)Loading？
javascript - ES6規(guī)范下 repeat 函數(shù)報(bào)錯(cuò) Invalid count value
angular.js - 輸入郵箱地址之后， 如何使其自動在末尾添加分號？
angular.js - angularjs 注入模塊報(bào)錯(cuò) 很怪異... 求解惑
javascript - JS 里面的 delete object.key 到底刪除了什么？
docker-machine添加一個(gè)已有的docker主機(jī)問題
docker-compose中volumes的問題
javascript - 后臺管理系統(tǒng)左側(cè)折疊導(dǎo)航欄數(shù)據(jù)較多，怎么樣直接通過搜索去定位到具體某一個(gè)菜單項(xiàng)位置，并展開當(dāng)前菜單
javascript - html5的data屬性怎么指定一個(gè)function函數(shù)呢？
html5 - 為什么使使用vue cli 腳手架，post-css 沒有自動對css3屬性自動添加瀏覽器前綴呢？
				

熱門標(biāo)簽

国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

網(wǎng)頁爬蟲 - python爬蟲用BeautifulSoup爬取<s>元素并寫入字典，但某些div下沒有這一元素，導(dǎo)致自動寫入下一條，如何解決？