文章詳情頁

網頁爬蟲 - Python3.6 下的爬蟲總是重復爬第一頁的內容

瀏覽：163日期：2022-06-30 17:08:03

問題描述

問題如題：改成while，試了很多，然沒有效果，請教大家

# coding:utf-8# from lxml import etreeimport requests,lxml.html,osclass MyError(Exception): def __init__(self, value):self.value = value def __str__(self):return repr(self.value) def get_lawyers_info(url): r = requests.get(url) html = lxml.html.fromstring(r.content) # phones = html.xpath(’//span[@class='law-tel']’) phones = html.xpath(’//span[@class='phone pull-right']’) # names = html.xpath(’//p[@class='fl']/p/a’) names = html.xpath(’//h4[@class='text-center']’) if(len(phones) == len(names)):list(zip(names,phones))phone_infos = [(names[i].text, phones[i].text_content()) for i in range(len(names))] else:error = 'Lawyers amount are not equal to the amount of phone_nums: '+urlraise MyError(error) phone_infos_list = [] for phone_info in phone_infos:if(phone_info[0] == ''): info = '沒留姓名'+': '+phone_info[1]+'rn'else: info = phone_info[0]+': '+phone_info[1]+'rn'print (info)phone_infos_list.append(info) return phone_infos_listdir_path = os.path.abspath(os.path.dirname(__file__))print (dir_path)file_path = os.path.join(dir_path,'lawyers_info.txt')print (file_path)if os.path.exists(file_path): os.remove(file_path)with open('lawyers_info.txt','ab') as file: for i in range(1000):url = 'http://www.xxxx.com/cooperative_merchants?searchText=&industry=100&provinceId=19&cityId=0&areaId=0&page='+str(i+1)# r = requests.get(url)# html = lxml.html.fromstring(r.content)# phones = html.xpath(’//span[@class='phone pull-right']’)# names = html.xpath(’//h4[@class='text-center']’) # if phones or names:info = get_lawyers_info(url)for each in info: file.write(each.encode('gbk'))

問題解答

回答1：

# coding: utf-8import requestsfrom pyquery import PyQuery as Qurl = ’http://www.51myd.com/cooperative_merchants?industry=100&provinceId=19&cityId=0&areaId=0&page=’with open(’lawyers_info.txt’, ’ab’) as f: for i in range(1, 5):r = requests.get(’{}{}’.format(url, i))usernames = Q(r.text).find(’.username’).text().split()phones = Q(r.text).find(’.phone’).text().split()print zip(usernames, phones)

Python 編程

上一條：python from fileutils import FileUtils文件操作下一條：網頁爬蟲 - python+smtp發送郵件附件問題

相關文章：

1. javascript - 如何將一個div始終固定在某個位置；無論屏幕和分辨率怎么變化；div位置始終不變2. html - vue項目中用到了elementUI問題3. javascript - 原生canvas中如何獲取到觸摸事件的canvas內坐標?4. javascript - vscode alt+shift+f 格式化js代碼，通不過eslint的代碼風格檢查怎么辦。。。5. javascript - 求解答：實例對象調用constructor，此時constructor內的this的指向？6. javascript - 有什么比較好的網頁版shell前端組件？7. java - 如何寫一個intellij-idea插件，實現編譯時修改源代碼的目的8. javascript - [js]為什么畫布里不出現圖片呢？在線等9. java 中Long 類型如何轉換成Double？10. html5 - 有可以一次性把所有 css外部樣式轉為html標簽內style=" "的方法嗎?

排行榜

					
					docker gitlab 如何git clone？
docker內創建jenkins訪問另一個容器下的服務器問題
golang - 用IDE看docker源碼時的小問題
docker綁定了nginx端口 外部訪問不到
如何解決Centos下Docker服務啟動無響應，且輸入docker命令無響應？
javascript - 求解答：實例對象調用constructor，此時constructor內的this的指向？
javascript - vscode alt+shift+f 格式化js代碼，通不過eslint的代碼風格檢查怎么辦。。。
java - 如何寫一個intellij-idea插件，實現編譯時修改源代碼的目的
IntelliJ IDEA無法解析導入javax.servlet。*;
WEB-INF / classes /與WEB-INF / lib / *。jar在類路徑優先級？
javascript - 如何將一個div始終固定在某個位置；無論屏幕和分辨率怎么變化；div位置始終不變
				

熱門標簽

国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

網頁爬蟲 - Python3.6 下的爬蟲總是重復爬第一頁的內容