舆情分析项目实施流程
[热点话题 | NVIDIA](https://www.nvidia.cn/developer/online-training/hot-topics/)
1. 项目介绍
随着新型冠状病毒疫情爆发,每天都有大量的新闻报道、微博和微信评论等。追踪疫情发展的舆论趋势,分析热点话题趋势、分析问题产生原因等,是了解广大人民群众民情的有效方式。因此本项目以各个门户网站、微博、微信等数据为基础,分析热点话题趋势,生成可视化数据展示,以便实时了解热点话题趋势。
2. 具体流程
1) 数据采集:
要求爬取微博、微信、新闻等,解析并清洗采集到的数据,并存储。
2) 关键信息提取:
利用自然语言处理技术,进行分词、实体识别、关键信息提取,例如火神山医院、口罩等。
实战关键词提取,主要参考实例如下:
- 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
https://blog.csdn.net/FlySky1991/article/details/73948971
推荐使用jieba分词,是国内使用人数最多的中文分词工具(github链接:https://github.com/fxsjy/jieba) - 命名实体识别(Named Entities Recognition,NER),就是识别这些实体指称的边界和类别。主要关注人名、地名和组织机构名这三类专有名词的识别方法。
https://blog.csdn.net/macanv/article/details/85684284
目前深度学习方法BERT-BiLSMT-CRF-NER
Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning
GitHub: https://github.com/macanv/BERT-BiLSTM-CRF-NER - 关键词是代表文章重要内容的一组词,关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。
主要方法包括:TF-IDF算法、TextRank算法、基于 LDA 主题模型进行关键词提取等。
https://www.cnblogs.com/zeppelin/p/11444166.html
https://blog.csdn.net/qq_38923076/article/details/81630442
3) 热点话题分析:
进行热点话题分析,例如火神山医院建设、医护人员支援等。找出每日最热话题,以及前三个热点关注。
舆情热词是指时段内在微博、新闻网站、微信公众号、论坛等网络平台上出现频率高、分布范围广的词组及短语。热点话题识别,可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。
热点舆情分析系统就是来实现热点事件的挖掘与分析,相关算法包括文档聚类,主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。可以利用k-means聚类算法等实现热点分析。
https://www.write-bug.com/article/45.html
https://blog.csdn.net/demongwc/article/details/84698273
4) 可视化展示:
按天、周、月绘制图表,显示热点话题,以及统计热点话题持续天数,热点话题开始和结束时间等等,分析预测话题趋势。
3. 自我效果评估建议
热点话题趋势分析项目的各个成果进行效果评估主要从以下几个指标进行:
- 热点话题识别:包括热点话题挖掘的准确率和召回率的评估。
- 预测热点话题趋势:热点话题分析维度,预测趋势准确度等。
- 可视化展示效果:可视化展示清晰明了。
- 建议评估效果好的的同学将自己的成果上传至Github供更多的同学学习与提高
4. 使用GPU
在命名实体识别 (Named Entities Recognition,NER) 任务中,深度学习方法 BERT-BiLSMT-CRF-NER 可以使用
GPU。需要安装 tensorflow-gpu 版本,并进行相关配置。
相关配置参考如下实例:
- TensorFlow + GPU 配置
- tensorflow 中使用 tf.ConfigProto() 配置 Session 运行参数 &&GPU 设备指定