摘要: 代码在这里,注释够详细,应该很容看懂吧。(注,程序里面有坑。。。直接用,不看代码小心中招,嘿嘿。。。)https://github.com/5crat/spider.py关于该爬虫程序运行示例: Spider.py -u url -d depth Url,depth 为必需参数,其他为可选参数,日志文件默认当前目录,名字:spider.log,日志等级默 认为3。数据库为:data.sql,也是当前目录。 关键字是匹配源码中标签的content属性的值 自检模块只是检查网络连接,和数据库连接。winXP sp3 和 ubuntu12.10测试爬取www.... 阅读全文
posted @ 2013-02-28 12:39 xss 阅读(4498) 评论(9) 推荐(0) 编辑