国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

您的位置:首頁技術文章
文章詳情頁

python - 網頁title中包含換行,如何用正則表達式提取出來?

瀏覽:159日期:2022-06-28 10:07:00

問題描述

在用python做CSDN的網頁爬蟲,在爬取網頁title時,我一直用的正則表達式(?<=<title>).+?(?=<)在CSDN中用不了了,去CSDN源碼一看,title換行顯示了python - 網頁title中包含換行,如何用正則表達式提取出來?

所以導致原來的正則表達式無法使用,那么,問題來了,像這樣網頁title中包含換行,如何用正則表達式提取出來呢?

PS:

不想用xpath或beautifulsoup的方法,只需要正則哦

CSDN本身有反爬蟲機制,我并不是因為這個反爬蟲而爬不到title的哦

謝謝大家

參照@caimaoy 的方法,我將正則表達式改為 (?<=<title>)(?:.|n)+?(?=<)后,title完美提取。再次感謝大家。

問題解答

回答1:

re.M 多行模式

自己寫多行匹配 http://python3-cookbook.readt...

回答2:

表達式那邊加個flag吧

tite = ’......’print(re.findall(’(?<=<title>).+?(?=<)’, title, re.S))

標簽: Python 編程
主站蜘蛛池模板: 博兴县| 昌宁县| 宁强县| 祁东县| 南通市| 昌宁县| 龙里县| 依兰县| 商丘市| 肇庆市| 运城市| 兴山县| 松滋市| 察哈| 咸阳市| 巴青县| 临城县| 鄂尔多斯市| 横峰县| 会同县| 泸定县| 桂平市| 浪卡子县| 房山区| 武陟县| 渑池县| 宁津县| 宣城市| 崇仁县| 三明市| 枣庄市| 永登县| 汉阴县| 固安县| 宜丰县| 灌南县| 陇西县| 五指山市| 宁远县| 航空| 岫岩|