文章詳情頁

python 爬蟲基本使用——統(tǒng)計(jì)杭電oj題目正確率并排序

瀏覽：2日期：2022-07-07 10:13:48

python爬蟲主要用兩個(gè)庫：Urllib和BeautifulSoup4。一個(gè)用來爬取網(wǎng)頁，一個(gè)用來解析網(wǎng)頁。

Urllib是Python內(nèi)置的HTTP請(qǐng)求庫，它包含四個(gè)模塊：

1、request，最基本的 HTTP 請(qǐng)求模塊，用來模擬發(fā)送請(qǐng)求，就像在瀏覽器里輸入網(wǎng)址然后敲擊回車一樣，只需要給庫方法傳入 URL 與額外的參數(shù)，就可以模擬這個(gè)過程。2、error ，異常處理模塊，如果出現(xiàn)請(qǐng)求錯(cuò)誤，我們可以捕獲這些異常，然后進(jìn)行重試或其他操作保證程序不會(huì)意外終止。3、parse ，工具模塊，提供了許多 URL 處理方法，比如拆分、解析、合并等。4、robotparser，主要用于識(shí)別網(wǎng)站的 robots.txt 文件，判斷網(wǎng)站是否可以爬取，用的較少。

這里只用到了最常用的request。

BeautifulSoup4從bs4包中導(dǎo)出，這里主要用的就是它的解析功能。

代碼如下，注釋寫得很清楚了：

#杭電OJ題目AC率排序import urllib.request as urfrom bs4 import BeautifulSoup dic = {} #存：'題號(hào)：題名 AC 提交次數(shù) 正確率'for t in range(1,59,1):#1~58頁都爬一遍 print(t) url = ’http://acm.hdu.edu.cn/listproblem.php?vol=’+str(t) #存網(wǎng)址 bs = BeautifulSoup(ur.urlopen(url).read(),'html.parser')#獲取網(wǎng)址的html并轉(zhuǎn)換為可以python可以使用的結(jié)構(gòu) ql0 = str(bs.body.table.contents[11].td.table.contents[1])#網(wǎng)頁的DOM解析后可以直接通過'.'來尋找子元素，找到題目的列表元素后，將列表中所有題目轉(zhuǎn)換成字符串。（可以輸出看看） ql = ql0[30:-10].split(';') #字符串中的題目以';'分隔，將它們分開，并存到列表中 for i in ql: #以下就是格式化處理每個(gè)題目，然后存到字典中 info1 = i.split(’,'’,1) num = info1[0].split(’,’)[1] info2 = info1[1].split(’',’,1) name = info2[0] right,submit = info2[1].split(’,’,1) submit = submit[:-1] dic[num] = [name,int(right),int(submit),int(right)/int(submit)]dic = sorted(dic.items(),key = lambda x: x[1][3]) #每頁題目都存入字典后，把字典中的題目通過正確率進(jìn)行排序，傳出列表with open(’Statistics.txt’,’w’,encoding = ’utf-8’) as f:#把統(tǒng)計(jì)排序好的題目保存到txt中 for i in dic: f.write(str(i)+’n’) print('Success！')

以上就是python 爬蟲基本使用——統(tǒng)計(jì)杭電oj題目正確率并排序的詳細(xì)內(nèi)容，更多關(guān)于python 爬蟲的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：多個(gè)版本的python共存時(shí)使用pip的正確做法下一條：使用python-cv2實(shí)現(xiàn)視頻的分解與合成的示例代碼

相關(guān)文章：

1. xml創(chuàng)建節(jié)點(diǎn)(根節(jié)點(diǎn)、子節(jié)點(diǎn))2. ASP.NET MVC使用jQuery ui的progressbar實(shí)現(xiàn)進(jìn)度條3. python實(shí)現(xiàn)合并兩個(gè)有序列表的示例代碼4. Python中常見的數(shù)制轉(zhuǎn)換有哪些5. 關(guān)于Python Socket編程的要點(diǎn)詳解6. PHP json_encode中文亂碼解決方法7. Python selenium模擬網(wǎng)頁點(diǎn)擊爬蟲交管12123違章數(shù)據(jù)8. Python基礎(chǔ)之numpy庫的使用9. java 實(shí)現(xiàn)Comparable接口排序,升序、降序、倒敘10. 淺談Python中文件夾和python package包的區(qū)別

排行榜

					
					ASP.NET MVC使用jQuery ui的progressbar實(shí)現(xiàn)進(jìn)度條
xml創(chuàng)建節(jié)點(diǎn)(根節(jié)點(diǎn)、子節(jié)點(diǎn))
關(guān)于Python Socket編程的要點(diǎn)詳解
基于Django集成CAS實(shí)現(xiàn)流程詳解
Django如何繼承AbstractUser擴(kuò)展字段
JAMon(Java Application Monitor)備忘記
phpstorm創(chuàng)建新項(xiàng)目的操作方法
Python selenium模擬網(wǎng)頁點(diǎn)擊爬蟲交管12123違章數(shù)據(jù)
PHP json_encode中文亂碼解決方法
Java實(shí)現(xiàn)RedisUtils操作五大集合(增刪改查)
java 實(shí)現(xiàn)Comparable接口排序,升序、降序、倒敘