国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

您的位置:首頁技術(shù)文章
文章詳情頁

python如何爬取網(wǎng)頁中的文字

瀏覽:119日期:2022-07-16 09:06:52

用Python進行爬取網(wǎng)頁文字的代碼:

#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下載一個網(wǎng)頁url = ’https://www.biquge.tw/75_75273/3900155.html’# 模擬瀏覽器發(fā)送http請求response = requests.get(url)# 編碼方式response.encoding=’utf-8’# 目標小說主頁的網(wǎng)頁源碼html = response.textprint(html)

1、編寫爬蟲思路:

確定下載目標,找到網(wǎng)頁,找到網(wǎng)頁中需要的內(nèi)容。對數(shù)據(jù)進行處理。保存數(shù)據(jù)。

2、知識點說明:

1)確定網(wǎng)絡(luò)中需要的信息,打開網(wǎng)頁后使用F12打開開發(fā)者模式。

在Network中可以看到很多信息,我們在頁面上看到的文字信息都保存在一個html文件中。點擊文件后可以看到response,文字信息都包含在response中。

對于需要輸入的信息,可以使用ctrl+f,進行搜索。查看信息前后包含哪些特定字段。

對于超鏈接的提取,可以使用最左邊的箭頭點擊超鏈接,這時Elements會打開有該條超鏈接的信息,從中判斷需要提取的信息。從下載小說來看,在目錄頁提取出小說的鏈接和章節(jié)名。

2)注意編碼格式

輸入字符集一定要設(shè)置成utf-8。頁面大多為GBK字符集。不設(shè)置會亂碼。

內(nèi)容擴展:

接下來我們了解一下爬取網(wǎng)頁信息的步驟。

想要獲得我們所需的數(shù)據(jù)分三步

第一步:使用BeautifulSoup解析網(wǎng)頁

Soup = BeautifulSoup(html,’lxml’)

第二步:描述想要爬去信息的東西在哪里。

信息 = Soup.select(’???’)

要知道它叫什么名字,如何去定位。

第三步:從標簽中獲得你想要的信息

<p>Something</p>

從標簽中獲取我們需要的信息,去掉一些沒有用的結(jié)構(gòu),并且把我們獲取的信息按照一定格式裝在數(shù)據(jù)容器中,方便我們?nèi)ゲ樵儭?/p>

以上就是python如何爬取網(wǎng)頁中的文字的詳細內(nèi)容,更多關(guān)于python爬取網(wǎng)頁文字的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 岳普湖县| 娱乐| 青川县| 武清区| 盱眙县| 奎屯市| 黑河市| 盐源县| 彰化市| 娱乐| 柳州市| 临朐县| 高密市| 诸城市| 靖边县| 阜阳市| 恭城| 五家渠市| 定日县| 新沂市| 孝感市| 盐池县| 尉氏县| 资中县| 白河县| 郧西县| 沅江市| 甘泉县| 曲麻莱县| 宁化县| 和龙市| 长垣县| 清苑县| 灵台县| 乡城县| 溧水县| 屏南县| 施秉县| 伊吾县| 枝江市| 高要市|