随笔分类 -  机器学习和深度学习

摘要:1 特点 支持四种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 paddle 模式,利用 PaddlePaddle 阅读全文
posted @ 2022-12-08 11:56 Hiidiot 阅读(411) 评论(0) 推荐(0) 编辑
摘要:最大熵模型(maximum entropy model)是由最大熵原理推导实现的。最大熵原理是在满足约束条件的模型集合中给出最优模型选择的一个准则。 1 最大熵原理 最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约 阅读全文
posted @ 2021-06-30 19:08 Hiidiot 阅读(1345) 评论(0) 推荐(0) 编辑
摘要:EM 算法是一种迭代算法,1977 年由 Dempster 等人总结提出,用于含隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM 算法的每次迭代由两步组成:E 步,求期望(expectation); M 步,求极大(maximization)。所以这一算 阅读全文
posted @ 2021-06-20 14:54 Hiidiot 阅读(666) 评论(0) 推荐(0) 编辑
摘要:蒙特卡罗法(Monte Carlo method),也称为统计模拟方法(statistical simulation method),是通过从概率模型的随机抽样进行近似数值计算的方法。蒙特卡罗来自于一个著名赌场的名字。 马尔科夫链蒙特卡罗法(Markov Chain Monte Carlo, MCM 阅读全文
posted @ 2021-04-01 13:52 Hiidiot 阅读(727) 评论(0) 推荐(0) 编辑
摘要:本文主要是对信息熵、信息增益、信息增益比和 Gini 指数的定义进行汇总,使之更加明确记忆。 1 信息熵和条件熵 1.1 信息熵 熵(entropy)是表示随机变量不确定的度量。 设 X 是一个取有限个值的离散随机变量,其概率分布为 \(P(X=x_i) = p_i, \quad i=1, 阅读全文
posted @ 2021-02-18 15:00 Hiidiot 阅读(936) 评论(0) 推荐(0) 编辑
摘要:1 标签 y{0,1} 通常我们在计算 Logistic Regression 经验风险损失是在假设数据集标签 y0,1时,利用极大似然估计可以得到: \(L(w) = -\sum_{i=1}^{N}y_i\log p_i + (1-y_i)\log(1- 阅读全文
posted @ 2021-02-18 11:25 Hiidiot 阅读(288) 评论(0) 推荐(0) 编辑
摘要:1 提升树模型 提升树是以分类树和回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。 提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。 提升树模型可以表示为决策树的加法模型 $$ f_M(x) 阅读全文
posted @ 2021-02-18 11:09 Hiidiot 阅读(1066) 评论(0) 推荐(0) 编辑
摘要:神经网络的参数学习是一个非凸优化问题,在使用梯度下降法进行网络参数优化时,参数初始值的选取十分关键,关系到网络的优化效率(梯度消失和梯度爆炸问题)和泛化能力(局部最优解问题)。 阅读全文
posted @ 2020-09-02 17:57 Hiidiot 阅读(2210) 评论(0) 推荐(0) 编辑
摘要:目前,深度神经网络的参数学习主要是通过梯度下降法来寻找一组可以最小化结构风险的参数。在具体实现中,梯度下降法可以分为:批量梯度下降、随机梯度下降以及小批量梯度下降三种形式。根据不同的数据量和参数量,可以选择一种具体的实现形式。这里介绍一些在训练神经网络时常用的优化算法,这些优化算法大体上可以分为两类 阅读全文
posted @ 2020-06-22 17:36 Hiidiot 阅读(1968) 评论(0) 推荐(0) 编辑
摘要:0 前言 评分卡模型最早是用在银行审批用户申请贷款的环节。不过,由于近年来小贷的盛行,越来越多的公司开始基于自己平台的用户数据来构建评分卡模型。银行信用评分卡一般分为两类: 申请评分卡,对新贷款申请进行筛选并判断其违约风险; 行为评分卡,对审批通过的贷款账户进行覆盖整个贷款周期的管理。 在介绍评分卡 阅读全文
posted @ 2018-06-07 22:20 Hiidiot 阅读(10916) 评论(0) 推荐(1) 编辑
摘要:0 前言 模型的评价指标和评价体系是建模过程中的一个重要环节,针对不同类型的项目和模型,要合理选择不同的评价指标和体系。下面先给出二分类模型中预测值和实际值的混淆矩阵(confusion matrix)和定义,然后介绍几种评价指标。 二分类模型的预测值与实际值的结果 TP(True Positive 阅读全文
posted @ 2018-05-16 21:35 Hiidiot 阅读(4668) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示