爬虫

Python抓取网页时GBK编码转UTF-8

用chardet模块检测出网页是ISO-8859-2的编码,西欧语言,这明显是不正确的,推测可能是网页中包含的某些特殊字符造成检测结果出错。

直接使用html.decode(‘gbk’).encode(‘utf-8’)则报错,那么可以简单地加一个参数让解码过程中出现错误自动忽略,即html.decode(‘gbk’, ‘ignore’).encode(‘utf-8’)

中文便能正确显示了。