|NO.Z.00028|——————————|BigDataEnd|——|Arithmetic&Machine.v28|——|Machine:项目实战.v05|舆情分析|
一、舆情分析
### --- 舆情分析
~~~ # 文本挖掘基本流程
~~~ # 使用的数据是评论数据,即文本数据。
~~~ # 文本数据的分析过程主要有:清洗,可视,这里针对中文文本。
~~~ 清洗基本流程:
~~~ 替换非中英文字符为空格;
~~~ 分词(结巴jieba);
~~~ 去掉停用词(对描述和建模无意义的词);
~~~ 筛选高频词;此流程需要反复尝试对比效果。
~~~ # 可视化:
~~~ 一般都是词云,可能配合关键词排序等。
~~~ # 建模:
~~~ 建模前需要将数据转成文档词矩阵(dtm);
~~~ 有监督的话常用的是贝叶斯,其他偏精度的算法也可以,要注意特征个数;
~~~ 无监督常用的是主题模型LDA,其他诸如分群,情感分析也可以。
~~~ # 清洗流程中,
~~~ 尤其是口语化较强的数据,例如评论数据,需要去除重复语句,以及字数少于某个阈值的评论。
~~~ # 根据评论数据得到的词云如下:

### --- 关键字提取
~~~ # 基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(bai64,20,True)
~~~ 不管从词云还是关键词来看,评价偏好评,没有明显问题。
~~~ 可以在停用词中添加好评,蟑螂可以再看效果。

二、项目总结


Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
——W.S.Landor
分类:
bdv029-算法
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 上周热点回顾(2.17-2.23)