第一次作业
介绍
在过去的时间中,信息检索(Information Retrieval-IR)在信息系统领域中占有重要地位,这是由于数字形式的文档的可用性不断提高,以及灵活访问它们的需求。文本分类(Text categorization-TC),又称主题识别(Topic Spotting)。其主要任务之一是用预先定义的集合中的主题类别标记自然语言文本。文本分类可以追溯到60年代初,由于应用需求的增加和功能更为强大的硬件的产生,它才成为信息系统学科的一个主要子领域。文本分类适用于许多场合,从基于控制词汇的文档索引到文档过滤,词义消除歧义,自动元数据生成,Web资源层次目录的填充,以及需要文档组织或选择性文档分发的任何应用程序。
直到80年代末,在实际应用中,最流行的文本分类方法是知识工程(Knowledge Engineering-KE),它由手动定义一套如何分类的专家规则来分类分本。在90年代,,基于统计和机器学习的文本分类方法逐渐兴起,早先的方法逐渐失去了对机器学习范式的支持。机器学习一般通过从一组预分类的文档中学习自动分类的特征,来构建自动文本分类器。这种方法的优点是精度可与人类专家媲美,并且因为不需要领域专家的干预即可构建分类器或将其移植到不同类别中,所以能够节省在专家劳动力方面的开支。
到20世纪,在人工智能研究领域已经不满足于机器学习的文本分类效果,其主要问题是文本表示是高纬度高稀疏的,特征表达能力较弱,而且神经网络很不擅长对于文本类数据的处理,此外还依然需要人工进行特征工程,成本较高。因此逐渐开始应用深度学习解决大规模文本分类问题中文本表示问题,再利用CNN/RNN等网络结构自动获取特征表达能力,去掉繁杂的人工特征工程。
文本分类按照任务类型的不同可以划分为问题分类,主题分类以及情感分类。常用于数字化图书馆、舆情分析、新闻推荐、邮件过滤等领域,为文本资源的查询、检索提供了有力支撑。
本文组织结构如下:第2节简单描述文本分类的基本概念,第3节介绍文本分类的应用,第4节介绍文本分类的关键技术,第5节介绍文本分类的部分模型方法,第6节简单介绍了文本分类的常规评价指标,第7节简单介绍文本分类常用的公共数据集,第8节分析了文本分类当前的研究挑战。
文本分类
文本分类定义
文本分类的任务是为每一个\(<d_j,c_i>\in D\times C\)分配布尔值,其中D是文档的域,\(C={{c}_1,\ldots,c_{\left|C\right|}}\)是一组预定义的类别。如果\(<d_j,c_i>\)的值为\(T\)表示\(d_j\)属于\(c_i\),如果\(<d_j,c_i>\)的值为\(F\)表示\(d_j\)不属于\(c_j\)。更正式的说,是借助一个成为分类器的函数:\(\phi:D\times C\rightarrow{T,F}\)来近似未知目标函数:\(\check{\phi}:D\times C\rightarrow{T,F}\),用于描述文件应如何分类。
单标签和多标签分类
取决于应用,可能会对文本分类任务世家不同的约束。例如,给定一个整数\(k\),需要为每一个\(d_j\ \in D\)精确分配\(k\)个属于\(C\)的元素,即类别。对于只分配一个类别给每一个\(d_j\in D\)的称作单标签,对于分配\(0\)到\(\left|C\right|\)个类别给每一个\(d_j\in D\)的称作多标签。其中的二类文本分类是单标签的一种特例,对每一个\(d_j\in D\)分配\(c_i\)或它的补\(\bar{c_j}\)。
一般来讲,二元分类比多标签更为通用,因为二元分类算法也可用于多标签分类。从多标签中寻找一个最合适的较为困难,也有可能找不到合适的类别,可以将问题转换为给定类别c_i,通过分类方法判断D是否属于该类别。
文本分类的应用
文本分类可以追溯到Maron[1961]关于概率文本分类的开创性工作。从那时起,文本分类已经用于许多不同的应用领域,在医疗领域,只能分诊技术的适用能够节约大量医疗资源,提升服务质量和效率。在企业中依靠只能客服代替人工提供服务,可以降低运营成本,问题分类在问答系统中起到关键作用。下文会简单介绍文本分类发展至今的一些应用。
布尔信息检索系统的自动索引
该应用催生了信息检索领域的大多数早期研究,依赖于控制字典的IR系统自动文档索引的方法中最突出的例子是布尔系统。在每个文档之中都有一个或多个描述其内容的关键字或关键词,这些关键字和关键词属于一个控制词典的有限集合,通常由一个主题层次词库组成。这项任务此前往往是由训练有素的人来完成,是一项昂贵的任务。
若将控制词典中的条目当作类别,那么文本索引就是文本分类的一个实例,因此可以用过文本分类技术来解决。
在图书情报领域,专利、图书、期刊论文、学术新闻等跨类型学术资源的自动组织和分类是数字化图书馆的关键技术。
文本过滤
与文本过滤相关的还有文本推荐,其主要是对信息生产者对分派给信息消费者的文档流进行分类。一个典型的例子是新闻,生产者是新闻社,消费者是报纸,在这种情况下,过滤系统应尽可能组织用户可能不感兴趣的内容的发送(例如,对于体育报纸,过滤其他不涉及体育的新闻)。这里可以将过滤是为单标签文本分类的一种情况,即将传入的文档分为两个不相交的类别,即相关与不相关。
过滤系统还可以将被认为与消费者相关的文档进一步分类为主题类别进行文本推荐,在上述例子中,所有关于体育的文章都可以根据从事的体育活动进一步的分类,使得感兴趣的人可以访问到预期的文档。文本过滤还可以用于训练电子邮件过滤器来丢弃垃圾邮件,并将非垃圾邮件分类为用户感兴趣的主题类别。
词义消歧
词义歧义消除是在歧义单词(多义词或同义词)在文本中出现时发现该单词的具体含义。例如’bank’在英语中具有两种不同的意思,像’the Bank of English’和‘the bank of river Thames‘,中文中的“包袱”在“别有包袱”和“收拾包袱”中不同的含义。这里涉及到了自然语言的处理,这里不能单独将单词作为关键词来处理,还需要根据上下文信息作为分类标准,这也是一个单标签的文本分类问题,可以将一个单词的所有意思看成是类别集合,然后利用文本分类判断该段文字最可能的意思。
分类方法
在将文本表示为模型可以处理的向量数据后,就可以使用传统的机器学习模型来进行处理,例如:朴素贝叶斯、K最近邻、支持向量机、决策树等方法。本文对几类常见模型进行了比较分析,见表1。
深度学习方法
传统做法主要问题的文本表示是高纬度高稀疏的,特征表达能力很弱,而且神经网络很不擅长对此类数据的处理;此外需要人工进行特征工程,成本很高。
随着计算机软硬件技术的不断进步,成本下降。近年来,深度学习技术在文本、语音、图像等多媒体信息的处理任务中取得突破性进展。
深度学习相对于传统的文本分类模型,能够通过多层语义操作,获得更高层更抽象的语义表征,并将特征提取工作融合于模型的构建过程中,减少人为设计特征的不完备性与冗余。
面临的挑战
(1)数据标注瓶颈。数据和算法是人工智能领域主要的研究内容。高质量的标记数据有助于提升文本分类的准确率。依赖人工标注的成本高、效率低。无监督数据的特征学习和半监督学习自动标注过程中的噪音提出是当前的研究热点和难点。
(2)深度学习的可解释性。深度学习模型在特征提取、语义挖掘方面有着独特的优势,在文本分类任务种取得了不俗的成绩。然而,深度学习是一个黑盒模式,其训练过程难以复现,隐语义和输出结果的可解释性较差。会使得模型的改进与优化失去了明确的指引。
(3)跨语种或多语种的文本分类。在经济全球化的大背景下,跨语言的文本分类在跨国组织和企业中有越来越大的需求。其挑战性在于源语言数据的特征空间与目标语言之间缺乏重叠,而且各国语言和文字有不同的语言学特征,这都是跨语言文本分类具有很大难度的原因。