摘要: 学弟又一个自然语言处理的项目,需要在网上爬一些文章,然后进行分词,刚好牛客这周的是从一个html中找到正文,就实践了一下。写了一个爬门户网站新闻的程序 需求: 从门户网站爬取新闻,将新闻标题,作者,时间,内容保存到本地txt中。 用到的python模块: 其中bs4需要自己装一下,安装方法可以参考: 阅读全文
posted @ 2017-01-08 19:09 SeeKHit 阅读(9543) 评论(1) 推荐(0) 编辑
摘要: 因为做网页爬虫,需要用到一个爬新闻的BeautifulSoup 的包,然后再关网上下的是whl包,第一次装,虽然花了点时间,最后还是装上去了,记录一下,方便下次。 先发一下官方文档地址。http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 建议有 阅读全文
posted @ 2017-01-08 10:51 SeeKHit 阅读(7429) 评论(1) 推荐(0) 编辑