摘要: 花了三个小时,实现了一个简单的爬虫,现在实现的功能是设置抓取深度,设置入口 出现的问题是:目前是单线程 在url抓取过程中会出现重复的url 尽管我努力去避免此类问题的发生,但是在我本地调试过程中还是出现了类似的问题 我避免url重复的方式 是 根据父页面 来判断 具体看程序代码 整个代码相对比较简单,希望对刚刚开始研究爬虫的新手有所帮助,也希望对我这个代码目前存在的问题 给予纠正 /File... 阅读全文
posted @ 2008-04-20 23:06 雨中漫步的太阳 阅读(1564) 评论(3) 推荐(1) 编辑