摘要: 根据实际的逻辑,综合了各家所长,我决定手工测试下,是否能够写出满意的爬虫.对此还是写出来看看,一边写一边思考,今天写了一点,等回家继续想想.根据逻辑思考,我觉得应该使用队列,和BS算法做基础,还要做链接索引.其中最难的莫过于链接索引了,这个东西还是得思考下的.现在还没想好,等等再看吧.#!/usr/bin/perluse LWP::Simple;use HTML::LinkExtor;use threads;use threads::shared;use Thread::Queue;use Thread::Semaphore;use Bloom::Filter;$base_url=" 阅读全文
posted @ 2013-09-29 23:13 墨迹哥's 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 这几天忙着做项目和一些W3A的测试,没啥时间研究别的.今天趁着快放假,也给自己放放假吧.看了下云总写的Perl爬虫,发现有多处不懂.但是部分地方算是理解了,看来目标还是很遥远的.给代码加了下注释,不过太累的,准备睡觉了..写了部分,改天补全..凑合着看吧....#!/usr/bin/perluse strict;use warnings;use threads;use threads::shared;use Thread::Queue;use Thread::Semaphore; use Bloom::Filter;use URI::URL;use Web::Scraper;# 设置线程数量 阅读全文
posted @ 2013-09-29 22:07 墨迹哥's 阅读(440) 评论(0) 推荐(0) 编辑