Python Scrapy圖片爬取原理及代碼實例
1.在爬蟲文件中只需要解析提取出圖片地址,然后將地址提交給管道
在管道文件對圖片進行下載和持久化存儲
class ImgSpider(scrapy.Spider): name = ’img’ # allowed_domains = [’www.xxx.com’] start_urls = [’http://www.521609.com/daxuemeinv/’] url = ’http://www.521609.com/daxuemeinv/list8%d.html’ pageNum = 1 def parse(self, response): li_list = response.xpath(’//*[@id='content']/div[2]/div[2]/ul/li’) for li in li_list: img_src = ’http://www.521609.com’+li.xpath(’./a[1]/img/@src’).extract_first() item = ImgproItem() item[’src’] = img_src yield item
2.配置文件修改
配置文件要增加IMAGES_STORE = ’./imgsLib’表明圖片存放的路徑
3.管道類的修改
原本管道類繼承的object,處理item對象使用時process_item方法,該方法不能發(fā)送請求,要想對圖片地址發(fā)送請求,需要繼承ImagesPipeline類,然后重寫該類中的三個方法:get_media_requests,file_path,item_completed
from scrapy.pipelines.images import ImagesPipelineimport scrapyclass ImgproPipeline(ImagesPipeline): #對某一個媒體資源進行請求發(fā)送 #item就是接收到的spider提交過來的item def get_media_requests(self, item, info): yield scrapy.Request(item[’src’]) #制定媒體數(shù)據(jù)存儲的名稱 def file_path(self, request, response=None, info=None): name = request.url.split(’/’)[-1] print(’正在下載:’,name) return name #將item傳遞給下一個即將給執(zhí)行的管道類 def item_completed(self, results, item, info): return item
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持好吧啦網(wǎng)。
相關(guān)文章:
1. asp(vbs)Rs.Open和Conn.Execute的詳解和區(qū)別及&H0001的說明2. CSS hack用法案例詳解3. ASP 處理JSON數(shù)據(jù)的實現(xiàn)代碼4. PHP設(shè)計模式中工廠模式深入詳解5. 用css截取字符的幾種方法詳解(css排版隱藏溢出文本)6. asp中response.write("中文")或者js中文亂碼問題7. .NET中l(wèi)ambda表達式合并問題及解決方法8. ThinkPHP5實現(xiàn)JWT Token認(rèn)證的過程(親測可用)9. ASP 信息提示函數(shù)并作返回或者轉(zhuǎn)向10. ASP.NET MVC遍歷驗證ModelState的錯誤信息
