文章詳情頁

python 爬取豆瓣網(wǎng)頁的示例

瀏覽：15日期：2022-06-22 15:44:05

python作為一種已經(jīng)廣泛傳播且相對易學的解釋型語言,現(xiàn)如今在各方面都有著廣泛的應用。而爬蟲則是其最為我們耳熟能詳?shù)膽茫裉旃P者就著重針對這一方面進行介紹。

python 語法簡要介紹

python 的基礎語法大體與c語言相差不大，由于省去了c語言中的指針等較復雜的結構，所以python更被戲稱為最適合初學者的語言。而在基礎語法之外，python由其龐大的第三方庫組成，而其中包含多種模塊，而通過模塊中包含的各種函數(shù)與方法能夠幫助我們實現(xiàn)各種各樣的功能。

而在python爬蟲中，我們需要用到的標準庫有：

urllib re bs4 xlwt

其中urllib庫可以幫助我們爬取目標網(wǎng)頁的html代碼，bs4中的beautifulsoup模塊以及re庫中的正則表達式可以將我們需要的數(shù)據(jù)從代碼中提取出來，而xlwt庫可以將數(shù)據(jù)儲存至excel表中，從而最終完成數(shù)據(jù)的爬取。

接下來，就步入我們此次介紹的重點——完整爬取一個網(wǎng)頁的數(shù)據(jù)。

本篇文章以爬取豆瓣電影top250的數(shù)據(jù)為例，并將爬取的過程分為三個部分：

1.爬取網(wǎng)頁

2.解析網(wǎng)頁

3.儲存網(wǎng)頁

那么，讓我們開始吧！

豆瓣top250網(wǎng)址：https://movie.douban.com/top250?start=

爬取網(wǎng)頁

import urllib.request

引入urllib庫中的request模塊

urllib庫的基本操作可參考該網(wǎng)址：

https://www.jb51.net/article/209542.htm

def askURL(url): head = {'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 88.0.4324.182Safari / 537.36' }# 模擬瀏覽器的登錄 request = urllib.request.Request(url,headers=head) #將網(wǎng)頁的url和頭部信息封裝至一起 response = urllib.request.urlopen(request) #獲取網(wǎng)頁的html代碼 html = response.read().decode('utf-8') #將獲取的數(shù)據(jù)轉化為utf-8格式 #print(html) #此步可以實驗一下能否成功爬取網(wǎng)頁的html代碼 return html

1.其中urllib.request.Request可以幫我們把要爬取的網(wǎng)頁的url及其他的頭部信息封裝至一起。

2.urlopen函數(shù)則可以幫助我們爬取下該網(wǎng)頁的html代碼

3.有一些網(wǎng)站會設置一下反爬機制來阻止我們的爬蟲，此時就需要我們設置頭部信息來模擬瀏覽器訪問網(wǎng)站

python 爬取豆瓣網(wǎng)頁的示例

需要用瀏覽器進入該網(wǎng)址，使用開發(fā)者模式獲取我們需要的頭部信息（也就是該圖中的user-agent）

4.最后需要將我們的爬取下的html代碼轉化為utf-8格式進行輸出

解析網(wǎng)頁

import refrom bs4 import BeautifulSoup

引入re庫和bs4庫

def getData(baseurl): datalist = [] #建立一個存放解析出的數(shù)據(jù)的元組 for i in range(0,10):url = baseurl + str(i*25)# 通過以下兩張截圖，我們可以發(fā)現(xiàn)豆瓣將每25部電影分為一頁，共分成了10頁、# 而其url的差別僅在最后加了25，故通過該規(guī)律，可將所有10張網(wǎng)頁的url全部獲取html = askURL(url)soup = BeautifulSoup(html,'html.parser')#通過beautifulsoup模塊自帶的html代碼解析器進行解析#并將解析器解析出的數(shù)據(jù)放至soup中

python 爬取豆瓣網(wǎng)頁的示例

逐頁進行解析，使解析出的數(shù)據(jù)能被我們接下來要使用的正則表達式識別

所謂正則表達式，就是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯，通過這種過濾，就可以得到我們想要的信息，就例如影片的名稱，評分等信息。

findlink = re.compile(r’<a href='http://www.intensediesel.com/bcjs/(.*?)' rel='external nofollow' >’) # r表示不受轉義字符的影響#該代碼通過正則表達式搜尋到所有關于影片鏈接的數(shù)據(jù)，以下代碼類似findImgSrc = re.compile(r’<img.*src='http://www.intensediesel.com/bcjs/(.*?)'’,re.S) #讓換行符包含在字符中findtitle = re.compile(r’(.*)’)findscore = re.compile(r’(.*)’)findjudge = re.compile(r’(d*)人評價’)findinq = re.compile(r’(.*)’)findbd = re.compile(r’(.*?)’,re.S)

for item in soup.find_all('div',class_='item'):#提取所有class為“item”的div模塊，并通過for循環(huán)一步步處理 data = [] item = str(item) #將item轉化為字符串類型 link = re.findall(findlink,item)[0] #通過影片詳情鏈接的正則表達式抽取數(shù)據(jù) data.append(link) #存放至data列表中 ImgSrc = re.findall(findImgSrc,item)[0] data.append(ImgSrc) title = re.findall(findtitle,item) if len(title)==2:#如果影片有多個名稱，則分別進行存儲ctitle = title[0]data.append(ctitle)otitle = title[1].replace('/','')data.append(otitle) else:data.append(title[0])data.append(' ') score = re.findall(findscore,item) data.append(score) judge = re.findall(findjudge,item) data.append(judge) inq = re.findall(findinq,item) if len(inq)!=0:inq = inq[0].replace('。','')data.append(inq) else:data.append('')#若有影片詳情，則輸出；若沒有，則輸出為空 bd = re.findall(findbd,item)[0] bd = re.sub(’<br(s+)?/>(s+)?’,' ',bd) bd = re.sub(’/’,' ',bd) data.append(bd.strip()) # 去掉前后空格 datalist.append(data) print(datalist) return datalist

以上代碼能通過正則表達式抽取出需要的數(shù)據(jù)存放data列表中，然后將所有的data數(shù)據(jù)存放至datalist列表中。

儲存網(wǎng)頁

將解析出的數(shù)據(jù)儲存到excel表中

import xlwt

引入xlwt庫

xlwt的基本操作可參考該網(wǎng)址：

https://www.jb51.net/article/209536.htm

def savepath(datalist): workbook = xlwt.Workbook(encoding='utf-8') #創(chuàng)建以utf-8格式編碼的一個workbook對象，該對象最后能保存為excel表格 worksheet = workbook.add_sheet('sheetwdy') #創(chuàng)建工作表“sheetwdy” col = ('電影詳情鏈接', '圖片鏈接', '影片中文名', '影片外國名', '評分', '評價數(shù)', '概況', '相關信息') #創(chuàng)建一個元組 for i in range(0, 8):worksheet.write(0, i, col[i]) # 將我們剛定義的元組中的信息寫入excel表的第一行 for i in range(0, 250):print('第%d條' % (i + 1))data = datalist[i]for j in range(0, 8): worksheet.write(i + 1, j, data[j]) #將解析出的數(shù)據(jù)通過for循環(huán)一條條導入excel表中 workbook.save('豆瓣250.xls') #將該excel表進行保存

如此我們便可以把解析出的數(shù)據(jù)存儲至excel表中了

python 爬取豆瓣網(wǎng)頁的示例

以上便為成品圖

以上就是python 爬取豆瓣網(wǎng)頁的示例的詳細內(nèi)容，更多關于python 爬取豆瓣網(wǎng)頁的資料請關注好吧啦網(wǎng)其它相關文章！

豆瓣 Python

上一條：python xlwt模塊的使用解析下一條：簡述python四種分詞工具,盤點哪個更好用?

相關文章：

1. IntelliJ IDEA導出項目的方法2. idea設置提示不區(qū)分大小寫的方法3. Spring如何集成ibatis項目并實現(xiàn)dao層基類封裝4. Java利用TCP協(xié)議實現(xiàn)客戶端與服務器通信(附通信源碼)5. IDEA 2020.1.2 安裝教程附破解教程詳解6. django queryset相加和篩選教程7. 使用AJAX（包含正則表達式）驗證用戶登錄的步驟8. 40個Java集合面試問題和答案9. Java實現(xiàn)的迷宮游戲10. JS圖片懶加載庫VueLazyLoad詳解

排行榜

					
					Java利用TCP協(xié)議實現(xiàn)客戶端與服務器通信(附通信源碼)
Spring如何集成ibatis項目并實現(xiàn)dao層基類封裝
IntelliJ IDEA導出項目的方法
IDEA 2020.1.2 安裝教程附破解教程詳解
django queryset相加和篩選教程
idea設置提示不區(qū)分大小寫的方法
利用ajax+php實現(xiàn)商品價格計算
使用AJAX（包含正則表達式）驗證用戶登錄的步驟
ASP.NET MVC使用異步Action的方法
JavaScript實現(xiàn)組件化和模塊化方法詳解
JS圖片懶加載庫VueLazyLoad詳解