摘要: 下面的代码目前只实现了抓取首页,后面会改下,要求抓2级到3级页面。 #!/usr/bin/perluse HTML::LinkExtor;use LWP::Simple;sub sparit{ local($base_url)= shift; # 抓取URL $parser = HTML::LinkExtor->new(undef,$base_url); $parser->parse(get($base_url))->eof; @links = $parser->links; foreach $linkarray (@links){ my @element = @$li 阅读全文
posted @ 2013-06-02 16:31 墨迹哥's 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 今天看了下当年云舒写的代码,发现一个很陌生的东西,基本上没见过。gg了一下,了解了该模块是一个大数据处理的模块,简单的来说,该模块的作用是,用于比较数据是否存在在已知列表中。对于我来说这模块甚至有点难以理解,对此搜索了下前人写的案例进行分析。把代码整理了下,写了下注释方便以后翻查。#!/usr/bin/perluse Bloom::Filter;# capacity:设置容器的大小# error_rate:容错的数量my $bf=Bloom::Filter->new(capacity => 10,error_rate => .001);# 被对比的列表my @keys=qw/ 阅读全文
posted @ 2013-06-02 16:28 墨迹哥's 阅读(207) 评论(0) 推荐(0) 编辑