perl抓取网页遇到的编码问题
使用Perl的LWP模块抓取搜房网站列表页时,输出的是乱码。仔细检查:
- 搜房网网页,的确是GBK编码。
- Perl程序文件,输出文件也都是GB2312格式,即使是输出的CMD终端,也是GBK环境。
上网多方查找,找到解决方案:
my %opts = (charset_strict => 1, default_charset => 'cp936', ); $content = $response->decoded_content( %opts );
据说是LWP模块在识别编码上,是有问题的,要手动选择。
参考链接:http://bbs.chinaunix.net/thread-4085860-1-1.html