第四五周(3.28-4.10)进度及下周计划(4.10组会总结)

进度:

  我们完成了第一部分内容,即数据爬取和自然语言初步处理

下周计划:

    完善情感词库,进一步情感分析

    开始写工程的WEB界面

 

  爬取的数据都来自东方财富网的股吧,包括标题,内容,作者,时间,以及评论等等,爬取的数目条数有几百万条,部分数据展示如下:

部分函数如下:

将爬取的数据存入mongodb中再进行情感分析和自然语言处理,将处理后的结果通过WEB界面展示。

 

posted on 2016-05-09 00:56  天生一队  阅读(148)  评论(0编辑  收藏  举报

导航