Python采集https网站乱码问题解决

2016-05-12 分类：技术文章阅读(2868) 评论(0)

最近一个项目是Python去采集一个知名的https网站，这里需要用到的库就是httplib

dl = httplib.HTTPSConnection(‘xxx.com’)

如果没有权限的话，还需要添加header 之类的

这里最主要出现了乱码问题

百度谷歌搜索了很多，在知名的stackflow上找到答案

原来是gzip的问题

加入下面代码即可解决问题

import zlib

html = rs.read()

html = zlib.decompress(html, 16+zlib.MAX_WBITS)

未经允许不得转载：互联网骚操作 » Python采集https网站乱码问题解决

相关推荐

评论抢沙发

评论前必须登录！

世界那么大，跟着我去看看

联系我们阿里云运行