稀疏字典学习
稀疏字典学习:字典构建阶段和利用字典(稀疏的)表示样本阶段。基于数据驱动,可以自适应的学习基(字典),而不需要预先假设。
1、字典学习:即利用训练样本通过最小化代价函数得到字典(也称为基等),也可称为特征学习;是对庞大数据集的一种降维表示,或者说是信息的压缩;尝试学习蕴藏再样本背后最质朴的特征(假设这是样本最好的特征)
2、稀疏表示:即利用步骤1中学习到的字典再次最小化代价函数,得到新的样本的特征(也称为系数等)。用尽可能少的资源表示尽可能多的知识,同时计算速度快。
优点:能实现特征的自动选择,学习地去掉没有信息的特征,也就是把这些特征对应的权重置为0;模型更容易解释,假设是回归模型:y=w1*x1+w2*x2+…+w1000*x1000+b(当然了,为了让y限定在[0,1]的范围,一般还得加个Logistic函数)。通过学习,如果最后学习到的w*就只有很少的非零元素,例如只有5个非零的wi,那么我们就有理由相信,这些对应的特征在患病分析上面提供的信息是巨大的,决策性的。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。
缺点:计算复杂度高。局限于低维度信号(小patch)。