python - ulipad爬網(wǎng)頁(yè)時(shí)中文為何是16進(jìn)制?
問(wèn)題描述
#! /usr/bin/env python#coding=utf-8import urlliburl = 'http://www.tust.edu.cn'content = urllib.urlopen(url).read()print content
python初學(xué)者,也是編程初學(xué)者。上面是代碼,用python2.7編譯的時(shí)候網(wǎng)頁(yè)上的中文可以正常顯示,但是用ulipad編譯的時(shí)候,網(wǎng)頁(yè)中的文字就是以16進(jìn)制的方式顯示的。請(qǐng)問(wèn)這個(gè)是什么問(wèn)題?
我搜索的時(shí)候,看到有的回答說(shuō)是在代碼后面加上encode
然而我在content后面接encode(’utf-8’)或者encode(’gb2312’)的時(shí)候都會(huì)提示報(bào)錯(cuò)
ascii codec can’t decode byte 0Xef in position 0:ordinal not in range
我查了一下,找到了下面這個(gè)網(wǎng)址
http://blog.csdn.net/qian_f/a...
好像是說(shuō)是字符編碼不統(tǒng)一的問(wèn)題。緊接著我查了一下read返回的好像就是byte string呀....
求各位大神解答...
問(wèn)題解答
回答1:個(gè)人理解,應(yīng)該是read()默認(rèn)的編碼無(wú)法解析網(wǎng)頁(yè)內(nèi)容,查下資料,嘗試在read的括號(hào)內(nèi)指定編碼,應(yīng)該沒(méi)有必要用encode的
回答2:unicode.encode(content,’utf-8’);
相關(guān)文章:
1. Docker for Mac 創(chuàng)建的dnsmasq容器連不上/不工作的問(wèn)題2. docker安裝后出現(xiàn)Cannot connect to the Docker daemon.3. javascript - 請(qǐng)教空白文本節(jié)點(diǎn)的問(wèn)題4. javascript - 用js實(shí)現(xiàn)遠(yuǎn)程js調(diào)用時(shí)出現(xiàn)時(shí)間機(jī)制問(wèn)題怎樣解決?5. 刷新頁(yè)面出現(xiàn)彈框6. javascript - 前端開(kāi)發(fā) 本地靜態(tài)文件頻繁修改,預(yù)覽時(shí)的緩存怎么解決?7. ios - 類似微博首頁(yè),一張圖的時(shí)候是如何確定圖大小的?8. java報(bào)錯(cuò)Communications link failure 該如何解決?9. javascript - 怎么看網(wǎng)站用了什么技術(shù)框架?10. PC 手機(jī)兼容的 編輯器
