业务领域建模Domain Modeling

我的工程实践是《基于情感词典的文本情感分析》，下面以我的工程实践为例，进行业务建模。

1）Collect application domain information

– focus on the functional requirements – also consider other requirements and documents

本项目致力于构建一个基于情感词典的文本情感分析系统，针对电商评论能够很好的提取出文本的情感词、情感值以及主题词（产品特征），使用户能够处理手头的大量评论数据集，得出商品的特征和缺陷，以期望通过评论数据来分析商品的不足与优势。

2) Brainstorming

– listing important application domain concepts – listing their properties/attributes – listing their relationships to each other

- 整合去重网上公共的情感词典、并加入一些网络用语，组成基础情感词典。
  
  然后研究情感类别划分，在基础情感词典中选取一部分作为种子词。
- 在基础情感词典的基础上基于语义相识度的方法进行扩充。语义相识度的计算方法有：计算词汇的点互信息（PMI）、对word2vec处理后的文本计算词汇直接的余弦距离、使用Hownet计算。
- 计算文本的分词与种子词的语义相识度，选取一些比较相似的加入情感词典，最后整合成电商领域情感词典。

4.构建领域情感词典。

- 方法一：首先利用Hownet获取中文词语的对应的各项英文义元；其次使用SentiWorldNet数据库检索每个英文义元所处的各个同义词集合；接着计算这些同义词集合的平均情感强度值得到每个义元的情感倾向性强度值；最后计算各项义元的平均情感强度值，即得到中文词语的情感倾向强度值。
- 方法二：首先利用Hownet计算每个情感词的情感倾向值；再计算每个情感词的TF-IDF值；最后将情感词的情感倾向值和TF-IDF值相乘作为情感词最后的情感值。

5.提取文本的主题。

- 利用双向传播算法完成产品特征的抽取。双向传播算法利用情感词和产品特征之间的句法依存关系模式以及此前jieba分词的词性标注来进行提取。
- 运用LDA主题模型挖掘文本的主题（整个领域的主题）

3) Classifying the domain concepts into:

– classes – attributes / attribute values – relationships

• association, inheritance, aggregation

4) Document result using UML class diagram

posted @ 2019-11-23 14:21 浅安时光～阅读(251) 评论(0) 编辑收藏举报

刷新页面返回顶部

浅安时光～