文章詳情頁

python - 網頁title中包含換行，如何用正則表達式提取出來？

瀏覽：159日期：2022-06-28 10:07:00

問題描述

在用python做CSDN的網頁爬蟲，在爬取網頁title時，我一直用的正則表達式(?<=<title>).+?(?=<)在CSDN中用不了了，去CSDN源碼一看，title換行顯示了 python - 網頁title中包含換行，如何用正則表達式提取出來？

所以導致原來的正則表達式無法使用，那么，問題來了，像這樣網頁title中包含換行，如何用正則表達式提取出來呢？

PS：

不想用xpath或beautifulsoup的方法，只需要正則哦

CSDN本身有反爬蟲機制，我并不是因為這個反爬蟲而爬不到title的哦

謝謝大家

參照@caimaoy 的方法，我將正則表達式改為 (?<=<title>)(?:.|n)+?(?=<)后，title完美提取。再次感謝大家。

問題解答

回答1：

re.M 多行模式

自己寫多行匹配 http://python3-cookbook.readt...

回答2：

表達式那邊加個flag吧

tite = ’......’print(re.findall(’(?<=<title>).+?(?=<)’, title, re.S))

Python 編程

上一條：python - 如何正則字符串中的所有漢字下一條：python - 使用`zipfile`模塊在不解壓縮的情況下如何使用text模式讀取文本文件？

排行榜

					
					JSP頁面導入問題類文件放在WEB-INF / classes中的包中
鏈接圖片時，鏈接不成功
mysql - redis和mongodb怎么結合
button按鈕點擊了沒有任何反應
python - type函數問題
html5和Flash對抗是什么情況？
ddos - apache日志很多其它網址，什么情況？
javascript - 前端開發 本地靜態文件頻繁修改，預覽時的緩存怎么解決？
javascript - 正則匹配大于0，不大于16，不超過兩位小數
老師，樣式沒有變呀？
error_log 指定不能生存錯誤日志的地址
				

熱門標簽

国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

python - 網頁title中包含換行，如何用正則表達式提取出來？