文章詳情頁

python-xpath獲取html文檔的部分內容

瀏覽：3日期：2022-08-03 15:56:25

有些時候我在們需要的用正則提取出html中某一個部分的文字內容，如圖:

獲取dd部分的html文檔，我們要通過它的一個屬性去確定他的位置才可以拿到他這個部分我們可以看到他的這個屬性class=’row clearfix ’，然后用xpath去獲取到這部分:

name = tree.xpath('//dd[@class=’row clearfix ’]')from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')print(name)

如果直接打印他是不能夠出來的，

python-xpath獲取html文檔的部分內容

我們需要對Element進行處理，用到name1 = html.tostring(name[0])，代碼如下:

from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])print(name1)

打印截圖:

python-xpath獲取html文檔的部分內容

但是大家可以看到里面的等內容并不是中文，原因是我們使用tostring方法輸出的是修正后的HTML代碼，但是結果是bytes類型，在python中bytes類型是不可以進行編碼的，需要轉換成字符串，使用代碼name1.decode()，此時我們將bytes類型轉換為str（字符串）類型。

那么此時我們關鍵是如何將$#26080;此類的符號轉換成漢字?。。∧敲词紫纫闱宄@是什么編碼？這類符號是HTML、XML 等 SGML 類語言的轉義序列。它們不是”編碼“，也就是說我們不能使用utf-8、gbk等編碼進行處理，需要使用HTMLParse進行處理，完整代碼如下：

from lxml import htmlimport requestsfrom html.parser import HTMLParser #導入html解析庫url = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])name2 = HTMLParser().unescape(name1.decode())print(name2)

此時運行結果如下：

python-xpath獲取html文檔的部分內容

那么此時就已經大功告成了?。?！

以上這篇python-xpath獲取html文檔的部分內容就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python修改列表值問題解決方案下一條：關于python中的xpath解析定位

相關文章：

1. JavaScript實現組件化和模塊化方法詳解2. PHP字符串前后字符或空格刪除方法介紹3. idea設置自動導入依賴的方法步驟4. Python安裝并操作redis實現流程詳解5. 部署vue+Springboot前后端分離項目的步驟實現6. Python基于Serializer實現字段驗證及序列化7. 網頁中img圖片使用css實現等比例自動縮放不變形（代碼已測試）8. html清除浮動的6種方法示例9. JSP之表單提交get和post的區別詳解及實例10. AJAX實現數據的增刪改查操作詳解【java后臺】

排行榜

					
					Python基于Serializer實現字段驗證及序列化
部署vue+Springboot前后端分離項目的步驟實現
JavaScript實現組件化和模塊化方法詳解
html清除浮動的6種方法示例
PHP字符串前后字符或空格刪除方法介紹
Python安裝并操作redis實現流程詳解
網頁中img圖片使用css實現等比例自動縮放不變形（代碼已測試）
idea設置自動導入依賴的方法步驟
用python登錄帶弱圖片驗證碼的網站
android I/0流操作文件(文件存儲)
android中使用react-native設置應用啟動頁過程詳解