最近一个项目是Python去采集一个知名的https网站,这里需要用到的库就是httplib
dl = httplib.HTTPSConnection(‘xxx.com’)
如果没有权限的话,还需要添加header 之类的
这里最主要出现了乱码问题
百度谷歌搜索了很多,在知名的stackflow上找到答案
原来是gzip的问题
加入下面代码即可解决问题
import zlib
html = rs.read()
html = zlib.decompress(html, 16+zlib.MAX_WBITS)
未经允许不得转载:互联网骚操作 » Python采集https网站乱码问题解决
评论前必须登录!