大数据分析---关键词分类任务
现在的任务需求是根据关键词(以逗号分割的一列)对类别分类。
问题:
1.样本数据不够多,并且关键词来源于之前的csv文件的某一列的提取,可能本身就不太准确。
2.数据本身有空值等不合理的字段。
3.数据准备阶段需要将将中文文本转化为encoding编码
解决方案:
经过查阅资料可以选择使用朴素贝叶斯作为文本分类的算法,但是经过实验,其准确率不高,仅有0.44,还有一种方法是用循环神经网络对文本分类(TextRNN)
在数据准备阶段首先需要将原来的两列文件改为统一格式例如 “农业 a1,a2,a3....”,然后需要去除缺省值,避免后续出错。
为了提高关键词的质量,需要重新将关键词提取,接下来提取的时候将项目简介,项目名称一起作为一个句子利用jieba分词分出来。