09 2022 档案
摘要:K 近邻算法 近邻算法的思想非常简单:对于测试数据,在训练数据中找到 个与之距离最近的点并进行多数表决。 取值比较小时会只考虑与输入实例距离非常近的点,但是噪声对结果的影响会很大。 取值较大时会考虑与输入实例距离较大的点,虽然可以避免噪声的影响,但是由于距离过大还是会
阅读全文
摘要:集成学习 在机器学习中,只使用一个模型容易出现过拟合现象,并且发挥不出数据量大的优势。 集成学习的思路是将一堆效果一般的模型通过某种方式组合在一起,形成一个更有效的大模型。 具体地,设训练集为 ,特征集为 ,每次选择 和 的子集 作为训练数据训练若干个小
阅读全文
摘要:参考:《统计学习方法》 相似度与距离 对于聚类算法来说,定义相似度与距离是十分关键的。 Minkowski distance 设 是样本集合 中的样本, 为特征数量,满足 则 $x_{
阅读全文