大数据分析---关键词分类任务

现在的任务需求是根据关键词（以逗号分割的一列）对类别分类。

问题：

1.样本数据不够多，并且关键词来源于之前的csv文件的某一列的提取，可能本身就不太准确。

2.数据本身有空值等不合理的字段。

3.数据准备阶段需要将将中文文本转化为encoding编码

解决方案：

经过查阅资料可以选择使用朴素贝叶斯作为文本分类的算法，但是经过实验，其准确率不高，仅有0.44，还有一种方法是用循环神经网络对文本分类（TextRNN）

在数据准备阶段首先需要将原来的两列文件改为统一格式例如 “农业 a1,a2,a3....”，然后需要去除缺省值，避免后续出错。

为了提高关键词的质量，需要重新将关键词提取，接下来提取的时候将项目简介，项目名称一起作为一个句子利用jieba分词分出来。

posted @ 2024-03-07 18:38 cojames 阅读(100) 评论(0) 收藏举报

刷新页面返回顶部

copyjames