摘要: 1 特点 支持四种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 paddle 模式,利用 PaddlePaddle 阅读全文
posted @ 2022-12-08 11:56 Hiidiot 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 在一个图像输出窗口中,底层是一个 Figure 实例,我们通常称之为画布,包含了一些可见和不可见的元素。 在画布上作出图形,这些图形是 Axes 实例,Axes 实例几乎包含了我们需要用到的 matplotlib 组成元素,例如坐标轴、刻度、标签、线和标记等。 import matplotlib.p 阅读全文
posted @ 2022-09-06 15:47 Hiidiot 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 最大熵模型(maximum entropy model)是由最大熵原理推导实现的。最大熵原理是在满足约束条件的模型集合中给出最优模型选择的一个准则。 1 最大熵原理 最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约 阅读全文
posted @ 2021-06-30 19:08 Hiidiot 阅读(1320) 评论(0) 推荐(0) 编辑
摘要: EM 算法是一种迭代算法,1977 年由 Dempster 等人总结提出,用于含隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM 算法的每次迭代由两步组成:E 步,求期望(expectation); M 步,求极大(maximization)。所以这一算 阅读全文
posted @ 2021-06-20 14:54 Hiidiot 阅读(600) 评论(0) 推荐(0) 编辑
摘要: 蒙特卡罗法(Monte Carlo method),也称为统计模拟方法(statistical simulation method),是通过从概率模型的随机抽样进行近似数值计算的方法。蒙特卡罗来自于一个著名赌场的名字。 马尔科夫链蒙特卡罗法(Markov Chain Monte Carlo, MCM 阅读全文
posted @ 2021-04-01 13:52 Hiidiot 阅读(648) 评论(0) 推荐(0) 编辑
摘要: Q-Q(Quantile-Quantile)图是用来判断两个数据集是否来自相同的分布,比如正态分布、均匀分布。如下图: Q-Q 图 from sklearn.datasets import load_iris import matplotlib.pyplot as plt import seabor 阅读全文
posted @ 2021-02-18 15:16 Hiidiot 阅读(1016) 评论(0) 推荐(0) 编辑
摘要: 本文主要是对信息熵、信息增益、信息增益比和 Gini 指数的定义进行汇总,使之更加明确记忆。 1 信息熵和条件熵 1.1 信息熵 熵(entropy)是表示随机变量不确定的度量。 设 \(X\) 是一个取有限个值的离散随机变量,其概率分布为 \(P(X=x_i) = p_i, \quad i=1, 阅读全文
posted @ 2021-02-18 15:00 Hiidiot 阅读(826) 评论(0) 推荐(0) 编辑
摘要: 1 标签 \(y \in \{0, 1\}\) 通常我们在计算 Logistic Regression 经验风险损失是在假设数据集标签 $y \in {0, 1}$时,利用极大似然估计可以得到: \(L(w) = -\sum_{i=1}^{N}y_i\log p_i + (1-y_i)\log(1- 阅读全文
posted @ 2021-02-18 11:25 Hiidiot 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 1 提升树模型 提升树是以分类树和回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。 提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。 提升树模型可以表示为决策树的加法模型 $$ f_M(x) 阅读全文
posted @ 2021-02-18 11:09 Hiidiot 阅读(1035) 评论(0) 推荐(0) 编辑
摘要: 神经网络的参数学习是一个非凸优化问题,在使用梯度下降法进行网络参数优化时,参数初始值的选取十分关键,关系到网络的优化效率(梯度消失和梯度爆炸问题)和泛化能力(局部最优解问题)。 阅读全文
posted @ 2020-09-02 17:57 Hiidiot 阅读(2071) 评论(0) 推荐(0) 编辑