需求分析文档(3月22日)

需求分析文档

1.背景

股票预测一直是一个热点问题。但是各种预测错综复杂,且都没有一个较为完善的结果。概括起来影响股票市场价格及其波动的因素,主要分为两大类:一是基本因素;另一种是技术因素。

所谓基本因素,是指来自股票的市场以外的经济与政治因素以及其他因素,其波动和变化往往会对股票的市场价格趋势产生决定性影响。一般地说,基本因素主要包括经济性因素、政治性因素、人为操纵因素和其他因素等。

我们的分析和以往分析不同,我们旨在利用人们的心理来对股票进行预测,用人们对股市的心情状态打分来预测涨跌。

 

2.要求

2.1功能要求

通过对中华英才网,和讯网等网站的帖子和评论等信息的爬取,建立模型,通过自然语言处理对每天的股市情况打分,通过前端动态页面显示,且具有词条搜索功能。

 

2.2性能要求

性能上要求数据可以实时爬取到数据库中,分析结果可以动态显示,搜索词条时能够极快输出结果,所用时间为本机和服务器通讯的时间。

 

2.3可靠性分析

股市预测问题至今没有一个好的解决方案,所以我们的研究旨在对股票研究进行参考,虽不具有极高的可靠性,但可以提供借鉴。

 

2.4可用性分析

如果成品实现了上述的所有功能和性能要求,股民可以实时查看论坛中人们对于股票时间的心情分析,那么可用性将是很高的;即使只实现了部分功能,也具有一定的可用性和指导性。

 

2.5出错处理需求

在搜索不到相关结果时,显示未搜索到相关结果,并在下面提示当前热门搜索项

 

2.6接口需求

一个是数据爬取与数据处理的接口,一个是数据处理和可视化的接口。

 

3.数据模型

3.1静态数据 

信息管理系统处理程序中静态数据分离技术经过3个发展阶段。 

(1) 静态数据作为应用程序的一部分直接保存在程序中,即静态数据与程序结合在一 起。 

(2) 静态数据从程序内部分离出来,形成独立的外部数据文件。静态数据文件与动态数据文件相互独立,依靠特定程序分别进行参照或存取。 

(3) 静态数据由外部数据文件存放方式转为数据库存放方式,将以前程序中静态数据对动态数据加工的某些控制关系抽象为静态表与动态表间关系。  

a. 用户id;

b. 用户密码;

c. 用户个人信息;

d. 用户关注的股票;

e. 用户关注的舆论关键字; 

f. 股票的基本信息;   

 

3.2动态数据 

输入数据:菜单选项。 

输出数据:菜单选项代表的页面。 

输入数据:关键字。 

输出数据:关键字相关的信息。

输入数据:新建记录项。 

输出数据:增加的关注股票或关注的舆论关键字。  

内部生成的数据:定时爬取的舆论信息,定时爬取的股票的实时定价,通过情感分析得到的关于股票的决策结果。  

 

3.3数据词典 

数据从程序内部分离出来,形成独立的外部数据文件。

静态数据文件与动态数据文件相互独立,依靠特定程序分别进行参照或存取。

静态数据由外部数据文件存放方式转为数据库存放方式,将以前程序中静态数据对动态数据加工的某些控制关系抽象为静态表与动态表间关系  

名称

用户登录密码

别名

密码/密码信息

用途

登陆,鉴定身份

描述

用户设定密码,登录时匹配密码进行身份鉴定

 

名称

用户信息查询

别名

用途

操作处理

描述

不同的用户访问到不同的信息

 

名称

股票信息查询

别名

用途

操作处理

描述

通过输入的股票名称或代码查询到股票基本信息、舆论信息以及决策信息

 

名称

舆情相关股票查询

别名

用途

操作处理

描述

通过输入的关键字查询相关股票

 

3.4数据采集 

第一步:建立数据库

第二步:爬取数据存储到数据库中

第三步:对数据进行情感分析建立自己的语料库

 

4.功能模型

本软件具有如下主要功能: 

用户查看自身信息功能 

用户修改个人信息功能(包括添加关注、删除关注、修改个人信息操作)

密码管理功能 

身份验证功能 

用户查询特定股票

用户查询特定舆情关键字 

顶层(第0层)数据流图:

 

5.终端用户

股民,或对股票感兴趣的人。

 

6.技术支持

股票舆情推荐系统主要分为数据采集、数据自然语言处理、可视化三部分,主要利用python/c#/php/javascript/html/css/mongodb等语言及数据库技术,本组成员对应分成三个小组处理三部分工作。

 

7.用户手册

一方面,用户在可视化界面里,通过搜索某一特定的股票,股票舆情推荐系统会将与之相关的热门舆论事件返回,通过向用户展示相应舆论事件的讨论次数及情感分析,为用户提供买卖股票大数据决策信息;

另一方面,用户也可在可视化界面里,搜索最近的热门舆论事件,股票舆情推荐系统会将与之相关的股票返回,用户可根据该舆论事件的情感值及各股票与之相关程度决定是否买卖股票。

 

8.未来进度计划:

第1-2周:实现对中华英才网、和讯网等经济网站的数据采集。

第3-6周:实现中文情感分析器及自然语言处理模型

第7-8周:实现可视化界面

第9周以后:对软件进行测试修改

posted on 2016-03-22 14:39  天生一队  阅读(526)  评论(1编辑  收藏  举报

导航