随笔档案「2020年1月」 - 女贞路4号

集成学习（一）

摘要：集成学习原理集成学习是将许多个弱学习器通过策略组合到一起的算法，弱学习器可以是树或是神经网络或者是其他。目前集成学习的方法分为两大类：bagging方法和boosting方法。 bagging与随机森林 bagging方法是从原始数据集中进行多次随机采样，每次采样多个样本。记为T个采样集，每个采阅读全文

posted @ 2020-01-15 11:11 女贞路4号阅读(240) 评论(0) 推荐(0)

L1范数与L2范数

摘要：L1范数与L2范数 L1范数 L1范数是指向量中各个元素绝对值之和，也叫“稀疏规则算子”（Lasso regularization）。稀疏的意思是可以让权重矩阵的一部分值等于0，很粗暴。 L1范数可以实现稀疏，那么问题来了，实现参数稀疏有什么用？可解释性：可以看到到底是哪些特征和预测的信息有关。阅读全文

posted @ 2020-01-14 17:02 女贞路4号阅读(1277) 评论(0) 推荐(0)

HMM与CRF

摘要：HMM与CRF 隐马尔可夫原理代码实现条件随机场原理条件随机场是从概率无向图（马尔可夫随机场）扩展得到的，概率无向图的联合概率分布$P(Y)$可由概率图中所有的最大团$C$上的势函数$\Psi_{C}(Y_{C})$的乘积形式表示，$Y_{C}$是$C$对应的随机变量，即 $$P(Y)=\ 阅读全文

posted @ 2020-01-13 23:43 女贞路4号阅读(376) 评论(0) 推荐(0)

主题模型LDA

摘要：主题模型LDA 原理 LDA也称为隐狄利克雷分布，LDA的目的就是要识别主题，即把文档—词汇矩阵变成文档—主题矩阵（分布）和主题—词汇矩阵（分布）。文档生成方式按照先验概率$P(d_{i})$选择一篇文档$d_{i}$ 从狄利克雷分布$\alpha$中取样生成文档$i$的主题分布$\theta_ 阅读全文

posted @ 2020-01-13 21:57 女贞路4号阅读(657) 评论(0) 推荐(0)

性能评估指标

摘要：机器学习性能评估指标 TP、TN、FP、FN FN：False(假的) Negative(反例)，模型判断样本为负例，但模型判断错了，事实上是正样本。（漏报率）FP：False(假的) Positive(正例)，模型判断样本为正例，但模型判断错了，事实上是负样本。（误报率）TN：True(真的) N 阅读全文

posted @ 2020-01-09 23:39 女贞路4号阅读(442) 评论(0) 推荐(0)

sigmoid与softmax

摘要：sigmoid与softmax sigmoid与softmax可以神经网络的输出单元。原理 sigmoid 预测二值型变量$y$的值，定义如下： $$\hat{y}= \sigma( \omega^{T}h+b)=\frac{1}{1+exp{-( \omega^ {T}h+b)}}$$ 通常使用阅读全文

posted @ 2020-01-08 23:54 女贞路4号阅读(510) 评论(0) 推荐(0)

女贞路4号

01 2020 档案

公告