05 2019 档案
摘要:根据Andrew Ng在斯坦福的《机器学习》视频做笔记,已经通过李航《统计学习方法》获得的知识不赘述,仅列出提纲。 1 聚类算法 1.1 K Means算法 步骤 随机初始化k个簇类中心(cluster centroids)[n维向量],然后迭代 1. 簇分配:遍历样本,判断其距离哪个簇类中心更近,
阅读全文
摘要:根据Andrew Ng在斯坦福的《机器学习》视频做笔记,已经通过李航《统计学习方法》获得的知识不赘述,仅列出提纲。 1 支持向量机(Support Vector Machine) 从逻辑回归一点一点修改来得到本质上的支持向量机 优化目标 $$ min_{\theta}C\sum_{i=1}^m[y^
阅读全文
摘要:根据Andrew Ng在斯坦福的《机器学习》视频做笔记,已经通过李航《统计学习方法》获得的知识不赘述,仅列出提纲。 1 机器学习系统的设计 构建一个学习算法的推荐方法为: 1. 从一个 简单 的能 快速 实现的算法开始,实现该算法并用 交叉验证集 数据测试这个算法 2. 绘制学习曲线,决定是增加更多
阅读全文
摘要:根据Andrew Ng在斯坦福的《机器学习》视频做笔记,已经通过李航《统计学习方法》获得的知识不赘述,仅列出提纲。 1 学习建议 误差太大,如何改进? 使用更多的训练样本→解决高方差 选用更少的特征→解决高方差 选取更多的特征→解决高偏差 增加多项式特征→解决高偏差 减小λ→解决高偏
阅读全文
摘要:根据Andrew Ng在斯坦福的《机器学习》视频做笔记,已经通过李航《统计学习方法》获得的知识不赘述,仅列出提纲。 1 神经网络学习 1.1 非线性假设 当n很大时,用逻辑回归建立非线性假设并不是一个好做法 1.2 模型展示 模仿了大脑中的 神经元 (计算单元):树突(input)、轴突(out
阅读全文
摘要:推荐系统(2) 多层模型 全局global 总体偏差:e.g.平均值作为基线 局部local 处理局部影响:e.g.相关性 协调过滤CF 抽取局部模式 Ⅰ协同过滤CF $$ r_{xi} = \frac{\sum_{j \in N(i;x)}S_{ij}·r_{xj}}{\sum_{j \in N(
阅读全文
摘要:根据Andrew Ng在斯坦福的《机器学习》视频做笔记,已经通过李航《统计学习方法》获得的知识不赘述,仅列出提纲。 1 初识机器学习 1.1 监督学习(x,y) 分类(输出y是离散值) 回归(输入输出是连续值) e.g.垃圾邮件、乳腺癌肿瘤好坏、是否患有糖尿病 1.2 无监督学习(x) e.g. 新
阅读全文
摘要:《统计学习方法》(第二版)第4章 4 朴素贝叶斯法 生成模型 4.1 学习与分类 1. 基于 特征条件独立假设 学习输入输出的 联合概率分布 2. 基于 联合概率分布 ,利用 贝叶斯定理 求出 后验概率最大 的输出 条件独立假设 $$ P(X=x|Y=c_k)=\prod_{j=1}^n P(X^{
阅读全文
摘要:问题描述:n个人围成一圈,每隔k个杀死一个,问最后的幸存者的编号 假设标号是0 ~ n 1,幸存者是f[n] 1、特殊情况:f[1]=0 2、一般情况:f[n] = (f[n 1]+k)%n 游戏开始时排序: 0、1、2、3、4、5、6、7、8……n 1 第一次被杀死的人的标号是k 1,还剩下n 1
阅读全文
摘要:《统计学习方法》(第二版)第2章 2 感知机 二类分类 、 线性分类模型 、 判别模型 输入 :实例的特征向量 输出 :实例的类别(+1, 1) 2.1 感知机模型 f(x)=sign(w·x+b) 几何解释 w·x+b=0对应一个超平面S,w是超平面的法向量,b是超平面
阅读全文
摘要:1 递归,二分 3 顺序遍历倒序拼接/倒序遍历顺序拼接 4 利用栈的先入后出的特性
阅读全文
摘要:《统计学习方法》(第二版)第3章 3 分类问题中的k近邻法 k近邻法不具有显式的学习过程。 3.1 算法(k近邻法) 1. 根据给定的距离度量,在训练集T中找出与x最邻近的k个点,涵盖这k个点的x的邻域记作Nk(x) 2. 在Nk(x)中根据分类决策规则(如多数表决)决定$x
阅读全文
摘要:《统计学习方法》(第二版)1.6 ~ 1.8 1.6 泛化能力 用学到的模型ˆf对未知数据预测的误差即为泛化误差(generalization error)。 泛化误差反映了学习方法的泛化能力。事实上, 泛化误差 就是所学习到的模型的 期望风险 。 泛化误差上界(generalizati
阅读全文
摘要:《统计学习方法》(第二版)1.4 1.5 1.4 模型评估与模型选择 1.4.1 训练误差与测试误差 当评估时使用的损失函数给定时,训练误差和测试误差成为学习方法评估的标准。 测试误差反映了学习方法对未知的测试数据集的预测能力(泛化能力[^1])。 [^1]: 测试误差评价泛化能力依赖于测试数据集,
阅读全文
摘要:《统计学习方法》(第二版)1.3 1.3 统计学习方法的三要素 1.3.1 模型(model) 模型就是所要学习的条件概率分布或决策函数。 1.3.2 策略(strategy) 损失函数和风险函数 损失函数度量模型 一次 预测的好坏。 风险函数度量 平均 意义下模型预测的好坏。 损失函数loss f
阅读全文
摘要:推荐系统(1) 1 基于内容的推荐Content based 主要思想:向顾客 x 推荐与之前被 x 高度评价的商品相似的商品 步骤 1. Item Presentation 为每个item抽取出一些特征来表示此item(item profile) 文本挖掘常用启发式方法: TFIDF
阅读全文
摘要:《统计学习方法》(第二版)1.1 1.2 1.1 统计学习 / 机器学习 1.1.1 定义 Statistical Learning,关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 平台:计算机及网络 研究对象:数据 目的:对数据进行预测与分析 中心:方法 学科:多领域
阅读全文