基于知识图谱的金融文本挖掘--需求分析与概念原型

一 前言

  本文对工程实践项目——基于知识图谱的金融文本挖掘,并结合《高级软件工程》进行需求分析和概念原型设计,旨在了解从需求分析到软件设计的基本建模方法及流程。

  项目介绍:主要内容包括四大部分,

1、获取数据,主要是爬取新浪新闻,财经等各大新闻模块的历史数据。

2、搭建知识图谱,针对爬到的数据提取实体及关系,构建金融的知识图谱。

3、实时微博抓取,抓取微博的实时的金融相关信息。

4、知识推理,基于知识推理针对新的新闻事件展开事件影响预测。

二 需求分析  

  需求分析的两种方法,即原型化方法(Prototyping)和建模的方法(Modeling)。

1、原型化方法可以很好地整理出用户接口方式(UI,User Interface),比如界面布局和交互操作过程。

2、建模的方法可以快速给出有关事件发生顺序或活动同步约束的问题,能够在逻辑上形成模型来整顿繁杂的需求细节。

  针对基于知识图谱的金融文本挖掘,主要参与者有两种,即使用者User和管理者Admin,以下是具体的参与者业务流程以及各自的角色。

.

  具体的业务流程为,管理员首先抓取历史新闻,通过实体抽取,关系抽取等构建知识图谱。然后用实时爬虫系统爬取实时的微博消息,并将微博消息提供给知识图谱以便进一步完善系统 ,并且适应最新的变化。使用者可以查看最新的微博消息,以及这些事件预计将产生的影响,或者查看历史相关,根据历史相似信息加以自行判断,并且还可以根据事件的要素查看与之相关的金融信息,了解更多的相关信息以辅助决断。

三 业务类图

 

  业务领域建模是开发团队用于获取业务领域知识的过程。因为软件工程师往往需要工作在不同的业务领域或者不同项目中,他们需要业务领域知识来开发软件系统。软件工程师往往来自不同的专业背景,这可能会影响他们对业务领域的认知。因此业务领域建模有助于开发团队获取业务领域知识形成统一的业务认知。 开发团队获取业务领域知识的过程一般包括收集业务领域相关信息、执行团队头脑风暴、对业务领域相关的知识概念进行分类,最后用UML类图将业务领域知识图形化展示。

  业务领域建模的基本步骤:

即:

  • 第一步,收集应用业务领域的信息。聚焦在功能需求层面,也考虑其他类型的需求和资料;

  • 第二步,头脑风暴。列出重要的应用业务领域概念,给出这些概念的属性,以及这些概念之间的关系;

  • 第三步,给这些应用业务领域概念分类。分别列出哪些是类、哪些属性和属性值、以及列出类之间的继承关系、聚合关系和关联关系。

  • 第四步,将结果用 UML 类图画出来。

 

四 数据模型

  根据以上业务类图,可以看出设计的数据模型主要有两个存储表,历史新闻表和存储知识图谱的三元组,具体结构如下:

          news表

三元组:写在csv中,导入neo4j数据库

  

五 概念原型

 概念是人对能代表某种事物或发展过程的特点及意义所形成的思维结论。

  概念原型是一种虚拟的、理想化的软件产品形式。

 

  工作流程:

1、由Admin抓取历史新闻,提取信息去构建知识图谱。

2、用户查看最近消息,并查看预测影响。

3、用户查看历史相似信息,并查看相关联的知识。

 

六 总结

  通过基于知识图谱的金融文本挖掘的需求分析和概念原型,尝试对项目进行需求分析,然后又对项目进行了业务领域建模,最后得出了项目的数据模型和概念原型。通过本文锻炼了课堂上学习的知识,尝试将其运用到实际的项目当中,借此次机会也锻炼了自己。但是本项目也是刚着手开始做,对项目的认识还不够深入,在一些地方尚有疑问,仍需要和指导老师进一步了解和学习。通过这篇博客也缕清了很多东西,对项目的认识不在仅仅局限到某一个功能的实现上,在以后的项目实践中会多多尝试这种分析和建模的方法以快速的把握项目的主体。

  参考资料:

https://gitee.com/mengning997/se/tree/master/ppt

 

posted @ 2020-12-14 19:34  xieyupei  阅读(945)  评论(0编辑  收藏  举报