爬虫经验总结一
在爬取数据时有两种主要的方法:
第一种方法是通过标签爬取数据,当想要爬取的数据格式相同时用这种方法很合适,
在爬取新闻数据使用到这种方法时,需要注意的是新闻页面驳杂,有些是新闻子页,有一些是广告子页,还有很多是图片为主的新闻子页,
遇到这种情况按照情况爬取自新闻面链接,通过观察发现正常的新闻子页的链接长度是在一定范围之间的,通过控制链接长度可以爬取需要的页面。
其次在一个新闻页面中在不同的版块会有相同的新闻,这需要我们通过if语句将重复的新闻页面去掉。最后将数据结合在一起放入数据库。