算法理论——学习类型
按输出空间分
二元分类问题(binary classification最核心)
回归问题(最核心)
多元分类问题(multiclass classification)
结构学习问题(structured learning problem,巨大的多元分类问题,structure=hyperclass,没有明确的类别定义。例如:通过蛋白质数据预测蛋白质扭曲方式;依据演讲数据构建演讲解析树......)
按数据标签分
监督学习
无监督学习(用途:聚类、密度评估、异常检测......)
半监督学习
强化学习(reinforcement learning,标签用一种隐晦的信息方式(例如,好或不好)给机器反馈。是一种很特别但又自然的学习方式。例如:广告推送用户点击还是不点击对机器都是一种反馈)
按protocol分
批学习(batch learning,一次性喂入资料,训练模型,模型出来以后就定型了)
线上学习(online learning,假设随着样本的加入而逐步修正,例如:PLA,reinforcement learning)
主动学习(active learning,通常用在取得标签很贵的情况,当机器碰到不能识别的类时,可以问人这是什么)
按输入空间分
具体特征(concrete features,特征中通常包含人类智慧(对这个资料的描述),特征是人类选好之后喂给机器的)
原始特征(raw features,通常需要人类智慧或者机器自己把raw feature转化为具体特征,前者相当于特征工程,后者相当于深度学习。例如,只给机器一张JPG格式的手写字母,要求识别这是什么字)
抽象特征(abstract features,给你抽象的元祖(userid,itemid,rating)集,要求预测某个userid会给出怎样的itemid的排名。应用:音乐推送中常常用到。抽象,通常需要特征转换/提取/构建)