国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

Python lxml庫(kù)的簡(jiǎn)單介紹及基本使用講解

瀏覽:2日期:2022-07-01 14:43:44
1.lxml庫(kù)介紹

lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的數(shù)據(jù);lxml和正則一樣,也是用C語(yǔ)言實(shí)現(xiàn)的,是一款高性能的python HTML、XML解析器,也可以利用XPath語(yǔ)法,來(lái)定位特定的元素及節(jié)點(diǎn)信息

HTML是超文本標(biāo)記語(yǔ)言,主要用于顯示數(shù)據(jù),他的焦點(diǎn)是數(shù)據(jù)的外觀XML是可擴(kuò)展標(biāo)記語(yǔ)言,主要用于傳輸和存儲(chǔ)數(shù)據(jù),他的焦點(diǎn)是數(shù)據(jù)的內(nèi)容

2.安裝lxml方法

方法1:在cmd運(yùn)行窗口中輸入:pip install lxml

Python lxml庫(kù)的簡(jiǎn)單介紹及基本使用講解

方法2:在Pycharm中下載File?Setting?Project?Project Interpreter?點(diǎn)擊右上角的“+”—第1步

Python lxml庫(kù)的簡(jiǎn)單介紹及基本使用講解

第2步

Python lxml庫(kù)的簡(jiǎn)單介紹及基本使用講解

第3步

Python lxml庫(kù)的簡(jiǎn)單介紹及基本使用講解

方法3:進(jìn)入這個(gè)網(wǎng)站進(jìn)行下載:https://lxml.de/index.html

Python lxml庫(kù)的簡(jiǎn)單介紹及基本使用講解

3.基本使用

我們可以利用他解析HTML代碼,并且在解析HTML代碼的時(shí)候,如果HTML代碼不規(guī)范或者不完整,lxml解析器會(huì)自動(dòng)修復(fù)或補(bǔ)全代碼,從而提高效率

實(shí)例1:解析HTML代碼塊

#提取html中的數(shù)據(jù)from lxml import etreetext = ’’’<html> <div class='clearfix'> <div class='nav_com'> <ul> <li class='active'><a href='http://www.intensediesel.com/' rel='external nofollow' >推薦</a></li> <li class=''><a href='http://www.intensediesel.com/nav/python' rel='external nofollow' >Python</a></li> <li class=''><a href='http://www.intensediesel.com/nav/java' rel='external nofollow' >Java</a></li> <li class=''><a href='http://www.intensediesel.com/nav/web' rel='external nofollow' >前端</a></li> <li class=''><a href='http://www.intensediesel.com/nav/arch' rel='external nofollow' >架構(gòu)</a></li> <li class=''><a href='http://www.intensediesel.com/nav/db' rel='external nofollow' >數(shù)據(jù)庫(kù)</a></li> <li class=''><a href='http://www.intensediesel.com/nav/5g' rel='external nofollow' >5G</a></li> <li class=''><a href='http://www.intensediesel.com/nav/game' rel='external nofollow' >游戲開(kāi)發(fā)</a></li> <li class=''><a href='http://www.intensediesel.com/nav/mobile' rel='external nofollow' >移動(dòng)開(kāi)發(fā)</a></li> <li class=''><a href='http://www.intensediesel.com/nav/ops' rel='external nofollow' >運(yùn)維</a></li> </ul> </div> </div></html>></html>>’’’#將字符串解析為html文檔html = etree.HTML(text)#print(html)#將字符串序列化為htmlresult = etree.tostring(html).decode(’utf-8’)print(result)

實(shí)例2:讀取并解析html文件

#將html文件進(jìn)行解析from lxml import etree#將html文件進(jìn)行讀取html = etree.parse(’data.html’)#將html內(nèi)容序列化result = etree.tostring(html).decode(’utf-8’)print(result)

到此這篇關(guān)于Python lxml庫(kù)的簡(jiǎn)單介紹及基本使用講解的文章就介紹到這了,更多相關(guān)Python lxml庫(kù)使用內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 三台县| 嘉峪关市| 横山县| 东乡族自治县| 六枝特区| 虹口区| 合阳县| 运城市| 西乡县| 峨眉山市| 南木林县| 荆州市| 安化县| 都安| 丹阳市| 内丘县| 吉水县| 华安县| 德州市| 阿荣旗| 吉林省| 即墨市| 繁峙县| 左贡县| 图木舒克市| 花莲县| 化州市| 兴安盟| 惠东县| 霍城县| 昌乐县| 贵阳市| 敦煌市| 安泽县| 大连市| 鄂托克前旗| 清远市| 正镶白旗| 佛教| 新乡市| 砀山县|