摘要: 爬虫原理 通过Python访问新闻首页,获取首页所有新闻链接,并存放至URL集合中。 逐一取出集合中的URL,并访问链接获取源码,解析出新的URL链接添加到集合中。 为防止重复访问,设置一个历史访问,用于对新添加的URL进行过滤。 解析DOM树,获取文章相关信息,并将信息存储到Article对象中。 阅读全文
posted @ 2016-10-03 18:13 woider 阅读(10386) 评论(1) 推荐(2) 编辑