2016 年 10月 3 日随笔档案 - woider

2016年10月3日

摘要：爬虫原理通过Python访问新闻首页，获取首页所有新闻链接，并存放至URL集合中。逐一取出集合中的URL，并访问链接获取源码，解析出新的URL链接添加到集合中。为防止重复访问，设置一个历史访问，用于对新添加的URL进行过滤。解析DOM树，获取文章相关信息，并将信息存储到Article对象中。阅读全文

posted @ 2016-10-03 18:13 woider 阅读(10417) 评论(1) 推荐(2) 编辑

woider

素色光阴里，一抹禅心余香

公告