文本分类（Text Categorization）

对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。
它根据一个已经被标注的训练文档集合, 找到文档特征和文档类别之间的关系模型, 然后利用这种学习得到的关系模型对新的文档进行类别判断。
文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。

通常，进行文本分类的主要方法有三种：

基于规则特征匹配的方法（如根据喜欢，讨厌等特殊词来评判情感，但准确率低，通常作为一种辅助判断的方法）
基于传统机器学习的方法（特征工程 + 分类算法）
给予深度学习的方法（词向量 + 神经网络）
自BERT提出以来，各大NLP比赛基本上已经被BERT霸榜了，但笔者认为掌握经典的文本分类模型原理还是十分有必要的。

常用的分类算法：
决策树，Rocchio，朴素贝叶斯，神经网络，支持向量机，线性最小平方拟合，kNN，遗传算法，最大熵，Generalized Instance Set等。

https://www.cnblogs.com/sandwichnlp/p/11698996.html

posted on 2020-06-28 10:29 HBU_DAVID 阅读(816) 评论(0) 收藏举报

刷新页面返回顶部

文本分类（Text Categorization）

导航