文章詳情頁

Python網頁解析器使用實例詳解

瀏覽：129日期：2022-07-23 18:07:59

python 網頁解析器

1、常見的python網頁解析工具有：re正則匹配、python自帶的html.parser模塊、第三方庫BeautifulSoup(重點學習)以及lxm庫。

Python網頁解析器使用實例詳解

2、常見網頁解析器分類

（1）模糊匹配：re正則表達式即為字符串式的模糊匹配模式；

（2）結構化解析： BeatufiulSoup、html.parser與lxml，他們都以DOM樹結構為標準，進行標簽結構信息的提取。

3.DOM樹解釋：即文檔對象模型（Document Object Model），其樹形標簽結構，請見下圖。

所謂結構化解析，就是網頁解析器它會將下載的整個HTML文檔當成一個Doucment對象，然后在利用其上下結構的標簽形式，對這個對象進行上下級的標簽進行遍歷和信息提取操作。

# 引入相關的包，urllib與bs4，是獲取和解析網頁最常用的庫from urllib.request import urlopenfrom bs4 import BeautifulSoup# 打開鏈接html=urlopen('https://www.datalearner.com/website_navi')# 通過urlopen獲得網頁對象，將其放入BeautifulSoup中，bsObj存放的目標網頁的html文檔bsObj=BeautifulSoup(html.read())print(bsObj)

# soup = BeautifulSoup(open(url,’r’,encoding = ’utf-8’))

import requestsfrom bs4 import BeautifulSoupheaders={’User-Agent’: ’Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36’,’referer’:'www.mmjpg.com' }all_url = ’http://www.mmjpg.com/’ #’User-Agent’:請求方式 #’referer’:從哪個鏈接跳轉進來的start_html = requests.get(all_url, headers=headers) #all_url：起始的地址，也就是訪問的第一個頁面 #headers：請求頭，告訴服務器是誰來了。 #requests.get：一個方法能獲取all_url的頁面內容并且返回內容。Soup = BeautifulSoup(start_html.text, ’lxml’) #BeautifulSoup：解析頁面 #lxml：解析器 #start_html.text：頁面的內容

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python多線程正確用法實例解析下一條：Python定時任務APScheduler原理及實例解析

相關文章：

1. ASP中格式化時間短日期補0變兩位長日期的方法2. 存儲于xml中需要的HTML轉義代碼3. javascript xml xsl取值及數據修改第1/2頁4. ASP刪除img標簽的style屬性只保留src的正則函數5. asp知識整理筆記4（問答模式）6. 怎樣才能用js生成xmldom對象，并且在firefox中也實現xml數據島？7. 小技巧處理div內容溢出8. js的一些潛在規則使用分析9. ASP實現加法驗證碼10. XML解析錯誤：未組織好的解決辦法

排行榜

					
					PHP單件模式和命令鏈模式的基礎知識
Python多線程操作之互斥鎖、遞歸鎖、信號量、事件實例詳解
解決python便攜版無法直接運行py文件的問題
php strncmp函數原型源碼分析
基于javaweb+jsp實現企業財務記賬管理系統
如何在jsp界面中插入圖片
部署vue+Springboot前后端分離項目的步驟實現
ASP刪除img標簽的style屬性只保留src的正則函數
asp知識整理筆記4（問答模式）
python實現udp傳輸圖片功能
ASP實現加法驗證碼