文章詳情頁

python - scrapy 處理文章分頁的內容

瀏覽：119日期：2022-08-03 16:15:10

問題描述

如一篇文章有2-3頁，然后想把這些內容頁爬下來，拼接成一頁，然后再放入數據庫。文章url如：article_1.html,article_2.htmlitem有：item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內容。大概怎么寫呢？

問題解答

回答1：

找到分頁接口url

回答2：

找到那個下一頁的鏈接，加入到爬取url列表中

回答3：

可以在rules里面寫正則自動掃描符合的url

Python 編程

上一條：python - 如何讓dataframe A 的一列與dataframe B的一列相減相加結果記到A的c列？下一條：亂碼 - VS2013+PTVS，python編碼問題

相關文章：

1. PHP單例模式2. mysql 5萬張表導出成sql 不要內容，只要結構，非常慢。如何解決啊？3. mysql - eclispe無法打開數據庫連接4. 數據庫 - mysql中有沒查看數據大小的函數??5. 導入數據庫不成功6. mysql如何配置遠程php外網鏈接數據庫7. 老師我是一個沒有學過php語言的準畢業生我希望您能幫我一下8. mysql - 關于數據緩存策略方面的疑惑9. mysql如何判斷數據不存在則插入呢？10. mysql無法刪除字段（錯誤1091），但是對該字段設置主鍵后就可刪除，為什么？

排行榜

					
					angular.js - 下圖的函數有什么作用？
macos - mac下docker如何設置代理
node.js - vue express 前后端分離 登錄驗證 與 權限控制問題
angular.js - 全站用的angular，但是像下面描述的這樣強交互的功能用angular該用什么思路去做呢？
android - Apk 中找不到r類文件
PHP單例模式
java - idea創建多modules項目后，tomcat啟動失敗
angular.js - Angular為什么我的版本換了下就不能用了呢？
android百度地圖定位問題
wordpress - Nginx中禁止訪問txt，robots.txt文件例外，規則該怎么寫？
javascript - 關于Js中 this的一道題
				

熱門標簽

国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

python - scrapy 處理 文章 分頁的內容

python - scrapy 處理文章分頁的內容