大数据分析---关键词分类任务

现在的任务需求是根据关键词(以逗号分割的一列)对类别分类。

问题:

1.样本数据不够多,并且关键词来源于之前的csv文件的某一列的提取,可能本身就不太准确。

2.数据本身有空值等不合理的字段。

3.数据准备阶段需要将将中文文本转化为encoding编码

解决方案:

经过查阅资料可以选择使用朴素贝叶斯作为文本分类的算法,但是经过实验,其准确率不高,仅有0.44,还有一种方法是用循环神经网络对文本分类(TextRNN)

在数据准备阶段首先需要将原来的两列文件改为统一格式例如 “农业  a1,a2,a3....”,然后需要去除缺省值,避免后续出错。

为了提高关键词的质量,需要重新将关键词提取,接下来提取的时候将项目简介,项目名称一起作为一个句子利用jieba分词分出来。

posted @ 2024-03-07 18:38  cojames  阅读(48)  评论(0编辑  收藏  举报