perl抓取文件内容

本文用Web::Scraper抓取新浪中的文本

#!/usr/bin/perl -w
use strict;
use utf8;
use URI;
use Web::Scraper;
binmode( STDOUT, ':encoding(utf8)' );
my $url   = "http://news.sina.com.cn/c/2010-06-04/203520413927.shtml";
my $proce = scraper {
    process '.blkContainerSblk >h1',   "news[]" => "TEXT";
    process '.blkContainerSblkCon >p', "texts[]" => "TEXT";
};
my $res = $proce->scrape( URI->new($url) );
for my $result ( @{ $res->{news} } ) {
    print "$result\n";
}
for my $result ( @{ $res->{texts} } ) {
    print "$result\n";
}

posted on 2012-03-17 21:29 孤独的猫阅读(582) 评论(0) 编辑收藏举报

刷新页面返回顶部

孤独的猫

公告