几种分类问题的区别：多类分类，多标签分类，多示例学习，多任务学习

多类分类（Multiclass Classification）

一个样本属于且只属于多个类中的一个，一个样本只能属于一个类，不同类之间是互斥的。

典型方法：

One-vs-All or One-vs.-rest：

将多类问题分成N个二类分类问题，训练N个二类分类器，对第i个类来说，所有属于第i个类的样本为正（positive）样本，其他样本为负（negative）样本，每个二类分类器将属于i类的样本从其他类中分离出来。

one-vs-one or All-vs-All：

训练出N(N-1)个二类分类器，每个分类器区分一对类(i,j)。

多标签分类(multilabel classification)

又称，多标签学习、多标记学习，不同于多类分类，一个样本可以属于多个类别（或标签），不同类之间是有关联的。

典型方法

问题转换方法

问题转换方法的核心是“改造样本数据使其适应现有学习算法”。该类方法的思路是通过处理多标记训练样本，使其适应现有的学习算法，也就是将多标记学习问题转换为现有的学习问题进行求解。

代表性学习算法有一阶方法Binary Relevance，该方法将多标记学习问题转化为“二类分类( binary classification )”问题求解；二阶方法Calibrated Label Ranking，该方法将多标记学习问题转化为“标记排序( labelranking )问题求解；高阶方法Random k-labelset，该方法将多标记学习问题转化为“多类分类(Multiclass classification)”问题求解。

算法适应方法

算法适应方法的核心是“改造现有的单标记学习算法使其适应多标记数据”。该类方法的基本思想是通过对传统的机器学习方法的改进，使其能够解决多标记问题。

代表性学习算法有一阶方法ML-kNN}，该方法将“惰性学习(lazy learning )”算法k近邻进行改造以适应多标记数据；二阶方法Rank-SVM，该方法将“核学习(kernel learning )”算法SVM进行改造以适应多标记数据；高阶方法LEAD，该方法将“贝叶斯学习(Bayes learning)算法”Bayes网络进行改造以适应多标记数据。

多示例学习（multi-instance learning）

在此类学习中，训练集由若干个具有概念标记的包（bag）组成，每个包包含若干没有概念标记的示例。若一个包中至少有一个正例，则该包被标记为正（positive），若一个包中所有示例都是反例，则该包被标记为反（negative）。通过对训练包的学习，希望学习系统尽可能正确地对训练集之外的包的概念标记进行预测。

多任务学习（Multi-task learning）

多任务学习（Multi-task learning）是和单任务学习（single-task learning）相对的一种机器学习方法。在机器学习领域，标准的算法理论是一次学习一个任务，也就是系统的输出为实数的情况。复杂的学习问题先被分解成理论上独立的子问题，然后分别对每个子问题进行学习，最后通过对子问题学习结果的组合建立复杂问题的数学模型。多任务学习是一种联合学习，多个任务并行学习，结果相互影响。

拿大家经常使用的school data做个简单的对比，school data是用来预测学生成绩的回归问题的数据集，总共有139个中学的15362个学生，其中每一个中学都可以看作是一个预测任务。单任务学习就是忽略任务之间可能存在的关系分别学习139个回归函数进行分数的预测，或者直接将139个学校的所有数据放到一起学习一个回归函数进行预测。而多任务学习则看重任务之间的联系，通过联合学习，同时对139个任务学习不同的回归函数，既考虑到了任务之间的差别，又考虑到任务之间的联系，这也是多任务学习最重要的思想之一。

多任务学习早期的研究工作源于对机器学习中的一个重要问题，即“归纳偏置(inductive bias)”问题的研究。机器学习的过程可以看作是对与问题相关的经验数据进行分析，从中归纳出反映问题本质的模型的过程。归纳偏置的作用就是用于指导学习算法如何在模型空间中进行搜索，搜索所得模型的性能优劣将直接受到归纳偏置的影响，而任何一个缺乏归纳偏置的学习系统都不可能进行有效的学习。不同的学习算法(如决策树，神经网络，支持向量机等)具有不同的归纳偏置，人们在解决实际问题时需要人工地确定采用何种学习算法，实际上也就是主观地选择了不同的归纳偏置策略。一个很直观的想法就是，是否可以将归纳偏置的确定过程也通过学习过程来自动地完成，也就是采用“学习如何去学(learning to learn)”的思想。多任务学习恰恰为上述思想的实现提供了一条可行途径，即利用相关任务中所包含的有用信息，为所关注任务的学习提供更强的归纳偏置。

典型方法

目前多任务学习方法大致可以总结为两类，一是不同任务之间共享相同的参数（common parameter），二是挖掘不同任务之间隐藏的共有数据特征（latent feature）。

posted on 2015-07-25 20:22 MachineLearner 阅读(6697) 评论(0) 收藏举报