第三周(3.21-3.27)进度及下周计划(3.27组会总结)

进度:

  我们完成了部分数据的爬取

  同时情感分析和自然语言处理也展开了工作

下周计划:

  完成全部数据的爬取

  推进情感分析的工作,可以得到一定的结果

 

  本周的爬取的数据都来自东方财富网中的股吧,我们希望通过爬取股吧内所有帖子,包括链接,题目,主题内容,发帖时间和评论等内容。使用Python递归地爬取股吧main_page中的每一个帖子的内容,爬取完一页后继续向下一页爬取,同时将爬取的数据存到mongodb中。

  我们希望可以爬取更多的和股票相关的贴吧论坛等网址,还有对新帖子的实时抓取,这些会在以后的工作中实现。

posted on 2016-04-11 15:49  天生一队  阅读(134)  评论(2编辑  收藏  举报

导航