摘要: 现在的任务需求是根据关键词(以逗号分割的一列)对类别分类。 问题: 1.样本数据不够多,并且关键词来源于之前的csv文件的某一列的提取,可能本身就不太准确。 2.数据本身有空值等不合理的字段。 3.数据准备阶段需要将将中文文本转化为encoding编码 解决方案: 经过查阅资料可以选择使用朴素贝叶斯 阅读全文
posted @ 2024-03-07 18:38 cojames 阅读(48) 评论(0) 推荐(0) 编辑