摘要: 1.概率监督学习 2.支持向量机 SVM 这个模型也是基于线性函数 w ⊤ x + b 的 支持向量机不输出概率,只输出类别 3.最近邻回归 4.决策树 阅读全文
posted @ 2018-11-30 10:13 大来 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 1.贝叶斯统计 贝叶斯用概率反映知识状态的确定性程度 数据集能够被直接观测到,因此不是随机的 另一方面,真实参数 θ 是未知或不确定的,因此可以表示成随机变量 相对于最大似然估计,贝叶斯估计有两个重要区别: 第一,不像最大似然方法预测时使用 θ 的点估计,贝叶斯方法使用 θ 的全分布 在观测到 m 阅读全文
posted @ 2018-11-29 15:32 大来 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 1.最大似然估计 我们首先要定义可能性: 并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。 2.KL 散度 只需要最小化 最小化 KL 散度其实就是在最小化分布之间的交叉熵 3.条件对数似然和均方误差 估计条件概率 P(y | x;θ),从而给定 x 预测 y 阅读全文
posted @ 2018-11-29 14:53 大来 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 1.点估计 令 {x (1) ,...,x (m) } 是 m 个独立同分布(i.i.d.)的数据点。点估计(point esti-mator)或统计量(statistics)是这些数据的任意函数: 良好的估计量的输出会接近生成训练数据的真实参数 θ 点估计也可以指输入和目标变量之间关系的估计。我们 阅读全文
posted @ 2018-11-28 23:07 大来 阅读(2368) 评论(0) 推荐(0) 编辑
摘要: 1.超参数 可以设置来控制算法行为 2.验证集 用于挑选超参数的数据子集被称为验证集(validation set) 3. k-折交叉验证算法 阅读全文
posted @ 2018-11-28 22:01 大来 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 1.泛化 在先前未观测到的输入上表现良好的能力被称为泛化(generalization) 2.训练误差(training error) 在训练集上计算的误差 3.泛化误差(generalization error)(也被称为测试误差(test error)) 在测试集上计算的误差 线性回归示例 4. 阅读全文
posted @ 2018-11-28 21:15 大来 阅读(427) 评论(0) 推荐(0) 编辑
摘要: 1.任务 T 机器学习系统应该如何处理样本(example) 样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合 通常会将样本表示成一个向量 x ∈ R n 分类 计算机程序需要指定某些输入属于 k 类中的哪一类 f : R n → {1,...,k} 阅读全文
posted @ 2018-11-28 11:59 大来 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 1.目标函数(objective function)或准则(criterion) 要最小化或最大化的函数 最小化时,我们也把它称为代价函数(cost function)、损失函数(loss function)或误差函数(error function) 一个上标 ∗ 表示最小化或最大化函数的 x 值。 阅读全文
posted @ 2018-11-28 09:11 大来 阅读(2030) 评论(0) 推荐(0) 编辑
摘要: 1.舍入误差 下溢: 接近零的数被四舍五入为零时发生下溢 避免被零除 避免取零的对数 上溢: 大量级的数被近似为∞ 或 −∞ 时发生上溢 softmax 函数对上溢和下溢进行数值稳定 2.病态条件 输入中的舍入误差可能导输出的巨大变化 考虑函数 f(x) = A −1 x。当 A ∈ R n×n 具 阅读全文
posted @ 2018-11-27 10:53 大来 阅读(1361) 评论(0) 推荐(0) 编辑
摘要: 1.贝叶斯规则 已知 P(y | x) 时计算 P(x | y),还知道 P(x)根据 其中 阅读全文
posted @ 2018-11-27 10:01 大来 阅读(224) 评论(0) 推荐(0) 编辑