01 2020 档案
摘要:集成学习 原理 集成学习是将许多个弱学习器通过策略组合到一起的算法,弱学习器可以是树或是神经网络或者是其他。目前集成学习的方法分为两大类:bagging方法和boosting方法。 bagging与随机森林 bagging方法是从原始数据集中进行多次随机采样,每次采样多个样本。记为T个采样集,每个采
阅读全文
摘要:L1范数与L2范数 L1范数 L1范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”(Lasso regularization)。稀疏的意思是可以让权重矩阵的一部分值等于0,很粗暴。 L1范数可以实现稀疏,那么问题来了,实现参数稀疏有什么用? 可解释性:可以看到到底是哪些特征和预测的信息有关。
阅读全文
摘要:HMM与CRF 隐马尔可夫 原理 代码实现 条件随机场 原理 条件随机场是从概率无向图(马尔可夫随机场)扩展得到的,概率无向图的联合概率分布可由概率图中所有的最大团上的势函数的乘积形式表示,是对应的随机变量,即 $$P(Y)=\
阅读全文
摘要:主题模型LDA 原理 LDA也称为隐狄利克雷分布,LDA的目的就是要识别主题,即把文档—词汇矩阵变成文档—主题矩阵(分布)和主题—词汇矩阵(分布)。 文档生成方式 按照先验概率选择一篇文档 从狄利克雷分布中取样生成文档的主题分布$\theta_
阅读全文
摘要:机器学习性能评估指标 TP、TN、FP、FN FN:False(假的) Negative(反例),模型判断样本为负例,但模型判断错了,事实上是正样本。(漏报率)FP:False(假的) Positive(正例),模型判断样本为正例,但模型判断错了,事实上是负样本。(误报率)TN:True(真的) N
阅读全文