大数据分析---关键词分类任务
现在的任务需求是根据关键词(以逗号分割的一列)对类别分类。
问题:
1.样本数据不够多,并且关键词来源于之前的csv文件的某一列的提取,可能本身就不太准确。
2.数据本身有空值等不合理的字段。
3.数据准备阶段需要将将中文文本转化为encoding编码
解决方案:
经过查阅资料可以选择使用朴素贝叶斯作为文本分类的算法,但是经过实验,其准确率不高,仅有0.44,还有一种方法是用循环神经网络对文本分类(TextRNN)
在数据准备阶段首先需要将原来的两列文件改为统一格式例如 “农业 a1,a2,a3....”,然后需要去除缺省值,避免后续出错。
为了提高关键词的质量,需要重新将关键词提取,接下来提取的时候将项目简介,项目名称一起作为一个句子利用jieba分词分出来。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人