概念篇-多分类多标签

最近在处理一个多分类的归类问题。多分类问题是个很常见的问题。但由于大家问题描述的角度不同,纠结点不一样,用词不同,导致有时候理解上出现了what?的尴尬情况。但透过现象看本质,抓住机器学习本质就是找公式,解方程,解不出来就尽量优化这个核心思想,就不会lost。

什么是归类。

在图像归类中,

手写数字识别,预测目标是0,1,2...9中的某一个数字

自动驾驶中的目标检测,预测目标是汽车,行人,建筑物

在自然语言处理中,

情感分类,预测目标文字所要表达的情感是高兴,悲伤,愤怒

传统的逻辑回归分类问题,是二项分类,是非问题,就是预测目标是不是属于某个分类。比如说,是新冠病毒携带者吗?是合理的吗?是坏的吗?当把传统的二项分类逻辑回归算法衍生到多分类的时候,该如何处理呢。因为逻辑回归算法比较简单,一个线性方程再加一个激活函数,解决问题能力有限,因此一个模型直接用于多分类,效果不理想。(图片来自网络)

 

所以,处理多分类问题的时候,通常就是分解为多个二项模型,然后一一判断是不是属于某个分类。

对于手写数字识别问题,就是有10个二项分类模型,分别预测是不是0,是不是1。。。

这样的做法,就是很可能,一个目标可能会落入多个分类中。对于实际问题,确实也有属于多分类的情况。比如说,自然语言处理中的命名实体识别NER,某个词组可能同时归类于”组织”和”时间发生地”。可以说多个二项分类模型的组合是default的解决了目标可能处于多个分类的这个问题。

但是如何处理只能是其中一个分类的问题呢。我们知道,逻辑回归的输出其实是代表概率,为了避免又是1又是0的问题,最后以选取概率最大的分类,作为最后的目标分类,就可以解决这个问题。

当我们用多层神经网络来取代罗辑回归算法的时候,由于网络的复杂,可以fit的情况越来越多,也就是可以用更加复杂的方程来匹配样本。(逻辑回归分类只有一层,怎么整都没法匹配复杂样本的) 。这个时候,多个分类问题并不需要分成多个网络来分别处理。

这时候需要保证的是输出层的节点数必须与分类的个数是一致的。从概念上,可以从更通用的角度来理解,这个模型网络就是一个n维(n个feature)的矢量到一个m维(m个分类)适量的transformer。(图片来自网络)

而以上提到的两种归类问题(多个分类可以共存与否)被转换为两个互相对立的概念: multi-class(不可共存,排他) 和multi-label(可以共存)

其实我很不喜欢把它们对立起来,明明就是同样的网络模型嘛,唯一的区别就是激活函数。multi-class 的激活函数用softmax,这样保证最后只有一个class被选中。multi-label的激活函数用sigmoid, 不管别人怎样,我根据我自己的标准来归类。激活函数不一样,最后的loss function的cross entropy的公式自然也不一样,但本质上就是交叉熵,最大似然。

所以再用pre-trained的模型时候,至少两件事情必须考虑,根据类别数量确定输出层的节点数,根据是多分类问题还是多标签问题确定激活函数。

当然有衍生的复杂问题。例如对目标进行不同角度的分类,比如说一首音乐对于风格和流行度同时进行分类,一个排他一个不排他。回到概念的本质,其实也一样,定位输出,找出优化方程(loss function)。

阅读作者更多原创文章,关注微信公众号:

posted @ 2021-05-22 04:47  dagis  阅读(354)  评论(0编辑  收藏  举报