大数据分析---关键词分类任务

现在的任务需求是根据关键词(以逗号分割的一列)对类别分类。

问题:

1.样本数据不够多,并且关键词来源于之前的csv文件的某一列的提取,可能本身就不太准确。

2.数据本身有空值等不合理的字段。

3.数据准备阶段需要将将中文文本转化为encoding编码

解决方案:

经过查阅资料可以选择使用朴素贝叶斯作为文本分类的算法,但是经过实验,其准确率不高,仅有0.44,还有一种方法是用循环神经网络对文本分类(TextRNN)

在数据准备阶段首先需要将原来的两列文件改为统一格式例如 “农业  a1,a2,a3....”,然后需要去除缺省值,避免后续出错。

为了提高关键词的质量,需要重新将关键词提取,接下来提取的时候将项目简介,项目名称一起作为一个句子利用jieba分词分出来。

posted @   cojames  阅读(54)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示