文本分类(Text Categorization)

对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。
它根据一个已经被标注的训练文档集合, 找到文档特征和文档类别之间的关系模型, 然后利用这种学习得到的关系模型对 新的文档进行类别判断 。
文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。

通常,进行文本分类的主要方法有三种:

基于规则特征匹配的方法(如根据喜欢,讨厌等特殊词来评判情感,但准确率低,通常作为一种辅助判断的方法)
基于传统机器学习的方法(特征工程 + 分类算法)
给予深度学习的方法(词向量 + 神经网络)
自BERT提出以来,各大NLP比赛基本上已经被BERT霸榜了,但笔者认为掌握经典的文本分类模型原理还是十分有必要的。

常用的分类算法:
决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,遗传算法,最大熵,Generalized Instance Set等。

https://www.cnblogs.com/sandwichnlp/p/11698996.html

posted on 2020-06-28 10:29  HBU_DAVID  阅读(681)  评论(0编辑  收藏  举报

导航