摘要: 华盛顿大学 机器学习 笔记。 k-means的局限性 k-means 是一种硬分类(hard assignment)方法,例如对于文档分类问题,k-means会精确地指定某一文档归类到某一个主题,但很多时候硬分类并不能完全描述这个文档的性质,这个文档的主题是混合的,这时候需要软分类(soft ass 阅读全文
posted @ 2018-04-19 17:20 smartweed 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 华盛顿大学 machine learning 笔记。 K-means algorithm 算法步骤: 0. 初始化几个聚类中心 (cluster centers)μ1,μ2, … , μk 1. 将所有数据点分配给最近的聚类中心; 2. 将每个聚类中心的值改成分配到该点所有数据点的均值; 3. 重复 阅读全文
posted @ 2018-03-30 15:16 smartweed 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 华盛顿大学 《机器学习》 笔记。 knn k-nearest-neighbors : k近邻法 给定一个 数据集,对于查询的实例,在数据集中找到与这个实例最邻近的k个实例,然后再根据k个最邻近点预测查询实例的类别。 《统计学习方法》中这样描述的: K近邻模型是基于训练数据集 对 特征空间的一个划分。 阅读全文
posted @ 2018-03-29 12:38 smartweed 阅读(483) 评论(0) 推荐(0) 编辑
摘要: 华盛顿大学 machine learning :classification 笔记 第6周 precision & recall 1.accuracy 局限性 我们习惯用 accuracy 评价一个分类器模型的准确程度,accuracy即正确预测的样本数/预测样本总数, 一般情况下这种评价都适用。 阅读全文
posted @ 2018-03-21 16:29 smartweed 阅读(424) 评论(0) 推荐(0) 编辑
摘要: 华盛顿大学 machine learnign :classification week 3 笔记 第二步: 注: 其中 ,mistake 的计算方法: 给定一个节点的数据集M,对每个特征hi(x),根据特征hi(x)将节点的数据集M分类。 统计哪个类别占多数,记为多数类。 所有不在多数类里的数据都作 阅读全文
posted @ 2018-03-16 11:06 smartweed 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 华盛顿大学 machine learning: Classification 笔记。 linear classifier 线性分类器 多项式: Logistic regression & 概率模型 P(y = +1 | x) = ? 使用 logistic函数 这个概率模型怎么来的? (李航《统计学 阅读全文
posted @ 2018-03-13 17:27 smartweed 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 华盛顿大学 machine learning regression 第六周笔记。 普通的回归方法是基于training set的整体性进行训练的,如果训练数据集 具有明显的分段性,那么普通的回归方法预测效果可能不佳。 考虑 knn(k邻近法)的解决思路: 给定一个 training set, 对于查 阅读全文
posted @ 2018-03-09 15:46 smartweed 阅读(722) 评论(0) 推荐(0) 编辑
摘要: 笔记。 岭回归, 计算回归系数时使( RSS(w)+λ||w||2) 最小 岭回归的结果会是所有的特征的weight都较小,但大多数又不完全为零。 而实际情况中,有的特征的确与输出值相关程度很高,weight本就应该取一个较大的值, 而有的特征与输出结果几乎毫无关系,取一个很小的值不如直接取零。 岭 阅读全文
posted @ 2018-03-01 22:29 smartweed 阅读(838) 评论(0) 推荐(0) 编辑
摘要: coursera 上的 华盛顿大学 machine learning: regression 第四周笔记 通常, 过拟合的一个表现是拟合模型的参数很大。 为了防止过拟合 Total cost = measure of fit + measure of magnitude of coefficient 阅读全文
posted @ 2018-02-28 22:04 smartweed 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 得到一个模型之后如何评价其性能? training error & generalization error & test error (1)training error 模型在训练数据集上的误差。 (2)generalization error Generalization, 一般化,泛化。 我们 阅读全文
posted @ 2018-01-13 01:01 smartweed 阅读(445) 评论(0) 推荐(0) 编辑