07 2019 档案
摘要:所谓的采样就是从特定的概率分布中抽取相应样本点的过程。 这一章涉及的数学知识偏多,比较枯燥,个人只对最后一节 《07 不均衡样本集的重采样》 重点看了下 1 采样的作用 采样本质上是对随机现象的模拟,根据给定的概率分布,来模拟产生一个对应的随机事件。 2 均匀分布随机数 Q1:如何编程实现均匀分布随
阅读全文
摘要:机器学习算法=模型表征+模型评估+优化算法。其中优化算法所做的事情就是在模型表征中找到模型评估指标最好的模型。 目前大部分机器学习的工具已经内置了常用的优化算法,实际应用时只需要一行代码即可完成调用。但是鉴于优化算法在机器学习中的重要作用,了解优化算法的原理也很有必要。 1 有监督学习的损失函数 Q
阅读全文
摘要:概率图模型构建了这样一幅图,用观测节点表示观测到的数据,用隐含节点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决的问题。 概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等。主要在NLP领域用的较为广泛 1 概
阅读全文
摘要:0 写在前面 前两天多看了两章一直都没更新,今天写的时候发现有些忘了,刚好捡起来回顾一下,近来也没什么事,兴趣来了就在图书馆泡一天看看自己喜欢的。再次重复下,这是第一遍,加之基础不好,明年才有可能出去实习,现在主要看看大概的知识框架,后续还会回头细看。扯远啦,步入正题。 相比于监督学习,非监督学习的
阅读全文
摘要:0 写在前面 所谓的降维就是用一个低维度的向量表示原始高维度的特征。常见的降维方法有主成分分析、线性判别分析、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影。 01 PCA最大方差理论 Q1:如何定义主成分?从这种定义出发,如何设计目标函数使得降维达到提取主成分的目的?针对这个目标函数,如何
阅读全文
摘要:第三章 经典算法 0 写在前面 本章介绍了 SVM,逻辑回归和决策树 三个经典算法。这三个算法在李航的《统计学习方法》中分别拿出了三章重点讲解。本节的提问需要有相应的基础,通过书中的提问发现自己基础太弱了,而基础知识最能考察一个人的学习能力。(记得考研时张宇说过,基础知识不等于简单知识,越是抽象的基
阅读全文
摘要:摘自《百面机器学习》第二章 模型评估内容 第一节 评估指标的局限性 介绍了 准确率(Accuracy),精准率(Precision),召回率(Recall),均方根误差(Root Mean Square Error, RMSE)以及 F1-Score 接下来来讲讲各个评估指标的优缺点: Accura
阅读全文
摘要:今天打算看看《百面机器学习》,打好基础,方便日后找工作,同时也是打发最近无聊的心情(闲下来就喜欢多想导致心情terrible)。 第一章 特征工程 第一节 特征归一化 Q1:为什么需要对数值的特征做归一化? A1:对数据类型的特征作归一化可以将所有的特征都统一到一个大致相同的数值区间内。避免因量纲的
阅读全文