perl抓取网页遇到的编码问题

使用Perl的LWP模块抓取搜房网站列表页时,输出的是乱码。仔细检查:

  • 搜房网网页,的确是GBK编码。
  • Perl程序文件,输出文件也都是GB2312格式,即使是输出的CMD终端,也是GBK环境。

上网多方查找,找到解决方案:

    my %opts = (charset_strict  => 1,         
            default_charset => 'cp936',
           );
    $content = $response->decoded_content( %opts );

据说是LWP模块在识别编码上,是有问题的,要手动选择。

参考链接:http://bbs.chinaunix.net/thread-4085860-1-1.html

posted @ 2013-11-11 15:21  zhaofei_001  阅读(288)  评论(0编辑  收藏  举报