DAY 1（概念整理）

一.协同过滤

1.简介

利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要。

分为评比（rating）或者群体过滤（social filtering）。

协同过滤推荐（Collaborative Filtering recommendation）是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似（兴趣）用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。

与传统文本过滤相比，协同过滤有下列优点:

（1）能够过滤难以进行机器自动基于内容分析的信息。如艺术品、音乐;

（2）能够基于一些复杂的，难以表达的概念（信息质量、品位)进行过滤;

（3）推荐的新颖性。

缺点是:

（1）用户对商品的评价非常稀疏，这样基于用户的评价所得到的用户间的相似性可能不准确（即稀疏性问题）;

（2）随着用户和商品的增多，系统的性能会越来越低;

（3）如果从来没有用户对某一商品加以评价，则这个商品就不可能被推荐（即最初评价问题）。

二.网络正则化

网络正则是指往对神经网络参数添加正则项，是一种控制过拟合手段，正则项可以看作是对网络参数的约束或惩罚，它能引导网络的参数朝某个规定的方向进行优化。添加了正则项后，网络的优化目标由原来的最小化损失函数𝐿(𝑥)变为最小化损失函数与正则项的和𝐿(𝑥)+𝑅(𝑊)。正则项在优化过程中层的参数或层的激活值添加惩罚项，这些惩罚项将与损失函数一起作为网络的最终优化目标。

常见的正则项有𝐿1范数、𝐿2范数、𝐿1+ 𝐿2约束，𝐿1范数对应于参数的拉普拉斯分布假设，𝐿2约束对应于参数的高斯分布假设

作用：例如，当为网络施加𝐿2约束时，具有较大值的参数经过平方后会产生一个很大的数值，不利于目标函数的最小化。因此在网络优化的过程中，参数将避免出现极大或极小的值。参数的值趋向于正态分布时，接近0值的参数较多，模型的复杂度趋于简单，因此能够达到控制过拟合的目的

过拟合：机器学习的基本问题是利用模型对数据进行拟合，学习的目的并非是对有限训练集进行正确预测，而是对未曾在训练集合中的样本能够正确预测。模型对训练集数据的误差称为经验误差，对测试集数据的误差称为泛化误差。模型对训练集以外样本的预测能力就称为模型的泛化能力，追求这种泛化能力始终是机器学习的目标。

“过拟合”常常在模型学习能力过强的情况出现，此时的模型学习能力太强，以至于将训练集单个样本自身的特点都能捕捉到，并将其认为是“一般规律”，同样这种情况也会导致模型泛化能力下降

欠拟合：欠拟合”常常在模型学习能力较弱，而数据复杂度较高的情况出现，此时模型由于学习能力不足，无法学习到数据集中的“一般规律”，因而导致泛化能力弱

区别：欠拟合在训练集和测试集上的性能都较差，而过拟合往往能学习训练集数据的性质，而在测试集上的性能较差

解决方案：

（1）在神经网络模型中，可使用权值衰减的方法，即每次迭代过程中以某个小因子降低每个权值。

（2）选取合适的停止训练标准，使对机器的训练在合适的程度；

（3）保留验证数据集，对训练成果进行验证；

（4）获取额外数据进行交叉验证；

（5）正则化，即在进行目标函数或代价函数优化时，在目标函

数或代价函数后面加上一个正则项，一般有L1正则与L2正则等。

三.范数

满足①非负性；②齐次性；③三角不等式。它常常被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小

四.Jaccard系数:

用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。

应用：项目相似性度量是协同过滤系统的核心。相关研究中，基于物品协同过滤系统的相似性度量方法普遍使用余弦相似性。然而，在许多实际应用中,评价数据稀疏度过高，物品之间通过余弦相似度计算会产生误导性结果。将杰卡德相似性度量应用到基于物品的协同过滤系统中，并建立起相应的评价分析方法。

非线性：线性系统就是满足叠加原理和齐次性的系统，通俗地讲，就是y=kx这样的函数关系就是线性，而神经网络是典型的非线性系统，它不满足这两个特性，也正因为它是非线性系统，所以才能解决非线性分类等问题。
非局域性：以BP神经网络为例，BP要达到在全局范围内找到能使误差最小的权值，这就是非局域性。
非定常性：定常就是一个系统的结构参数是固定的常数，而神经网络是可以通过训练修改权值的，当然具有非定常性。
非凸性：非凸性是指系统的能量函数有多个极值,即系统有多个稳定的平衡态。

posted @ 2019-07-19 20:32 Apinke 阅读(260) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Apinke

DAY 1（概念整理）

一.协同过滤

二.网络正则化

公告