摘要: 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 它在分类资料统计推断中的应用包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比 阅读全文
posted @ 2020-03-24 22:25 lincoding` 阅读(2342) 评论(0) 推荐(0) 编辑
摘要: Apriori原理说的是如果一个元素项不是频繁集,那么包含该元素项的超集也不是频繁集。 图1-1 Apriori搜索频繁项集的原理 Apriori 算法是发现频繁项集的一种方法。过程如下: 生成所有单个物品的项集列表。 接着扫描交易记录来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉。 对剩下来的项集进行组合以生成包含两个元素的项集。再重新扫描交易记录,去掉不满足最小支持... 阅读全文
posted @ 2020-03-24 22:22 lincoding` 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 关联规则(AssociationRules),无监督学习方法,用于知识发现。 其可以用于给数据进行标注,但缺点是其结果难以进行评估。 关联规则的最经典的案例就是购物篮分析。同样也可用于电影推荐、约会网站或者药物间的相互副作用。 关联规则首先定义:为项集(items),其中为项。 则为数据库(database),其中为事务(transaction)。事务是项的集合,即,每个事务有唯一的标识索... 阅读全文
posted @ 2020-03-24 22:21 lincoding` 阅读(2082) 评论(0) 推荐(0) 编辑
摘要: 蒙特卡洛法(Monte carlo method),也称为统计模拟方法,通过从概率模型的随机抽样进行近似数值计算的方法。 它要解决的问题是,假设概率分布的定义已知,通过抽样获得概率分布的随机样本,并通过得到的随机样本对概率分布的特征进行分析。故这种方法的核心即是随机抽样。 一般的蒙特卡洛法有直接抽样法、接受-拒绝抽样法、重要性抽样法等。 接受-拒绝抽样法(accept-reject samplin... 阅读全文
posted @ 2020-03-24 22:20 lincoding` 阅读(1819) 评论(0) 推荐(0) 编辑
摘要: 概率潜在语义分析(probabilistic latent semantic analysis,PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。 跟潜在语义分析相似,而其特点是基于概率模型,用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程。 概率潜在语义分析模型有生成模型,以及等价的共现模型。 假定n个文本的集合,文本中所有单词... 阅读全文
posted @ 2020-03-24 22:18 lincoding` 阅读(1308) 评论(0) 推荐(0) 编辑
摘要: 单词向量空间 通常文本的语义内容表示可以用一个简单的模型来表示--单词向量空间模型。 即对于一个给定的文本,用一向量表示该文本的语义,向量的每一个维度表示一个单词,其数值为该单词在文本中出现的频数或权数。而模型的基本假设是文本中所有单词的出现情况即表示该文本的语义内容。 关于不同文本之间的语义相似度的度量,则可以用文本在单词向量空间中所表示的向量进行内积,而内积值的大小对应了文本之间语义相似度... 阅读全文
posted @ 2020-03-24 22:17 lincoding` 阅读(591) 评论(0) 推荐(0) 编辑
摘要: 主成分分析(principle component analysis,PCA),用正交变换将由线性相关变量表示的观测数据转换为少数几个由线性无关变量(称主成分)表示的数据的方法,即对数据进行降维处理。 这种方法的几何解释即是将样本映射到几个相互正交的向量上,并使得样本在所映射的向量上方差最大, 图1-1 样本在单个向量上的映射 可以定义N个样本在所映射的单个向量上方差Var 其中x'为... 阅读全文
posted @ 2020-03-24 22:16 lincoding` 阅读(684) 评论(0) 推荐(0) 编辑
摘要: 奇异值分解(singular value decomposition,SVD)一种矩阵因子分解的方法,在主要成分分析和潜在语义分析都会用到这一重要的工具。 其即是将一个的实矩阵A,表示成三个实矩阵乘积形式, 其中U是m阶的正交矩阵,V是n阶的正交矩阵,而是由A矩阵的奇异值由降序排列成对角线组成的对角矩阵。 分解的几何解释是将任意一个n维向量,根据公式从右到左,先经过坐标系的旋转或反转变换,再... 阅读全文
posted @ 2020-03-24 22:14 lincoding` 阅读(1096) 评论(0) 推荐(0) 编辑
摘要: 聚类是根据样本的相似度,将样本归并到一类别的方法。 聚类相似度的确定则需要根据样本的特性选择合适的相似度度量方法来计算。一般相似度的度量方法有距离度量,即将样本看作向量空间的集合,以样本在空间中的距离表示样本之间的相似度,而常见的距离度量有欧氏距离。 相似度的度量方法还有:相关系数,夹角余弦等等的方法。 在确定相似度的度量方法后,聚类的算法也有两种: 层次聚类(自下而上型): 层次聚类在初始时... 阅读全文
posted @ 2020-03-24 22:13 lincoding` 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 条件随机场(conditional random field,CRF),常用于标注或分析序列资料,如自然语言文字或是生物序列。即给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型。 图1-1 线性链条件随机场 设P(Y|X)为线性链条件随机场,则随机变量X在取值为x的条件下,随机变量Y取值为y的条件概率的形式如下, 是定义在边上的特征函数(转移函数),依赖于当前位置和前... 阅读全文
posted @ 2020-03-24 22:12 lincoding` 阅读(369) 评论(0) 推荐(0) 编辑
摘要: EM(expectation maximization algorithm)用于含有隐变量的概率模型参数的极大似然估计。 例子: 有三枚A,B,C硬币。首先A为选择硬币,对其进行投掷,其投掷结果正则选择B硬币进行投掷,反为选择C硬币,然后根据选择的硬币再进行投掷,记录该硬币的投掷结果,正面为1,反面为0;重复上述过程。投掷实验过程如下, 图1-1 投掷A,B,C硬币实验 实验的记录结果... 阅读全文
posted @ 2020-03-24 22:11 lincoding` 阅读(408) 评论(0) 推荐(0) 编辑
摘要: AdaBoost算法流程: 输入:训练数据集和弱学习方法; 输出:最终分类器; 初始化训练数据的权值分布(初始平均分配,D的下标和的第一个下标表示训练的轮次) 对于第m次训练, 使用具有权值分布的训练数据集学习,得到基本分类器 计算在训练数据集上分类误差率 计算的系数 更新训练数据集的权值 将上述得到的弱分类器进行线性组合 最... 阅读全文
posted @ 2020-03-24 22:10 lincoding` 阅读(358) 评论(0) 推荐(0) 编辑
摘要: 就分类问题的训练而言,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易。而提升方法即从若分类器算法的学习出发,反复学习,得到一系列的弱分类器,然后通过组合,构成一个强分类器。 当然,在这提升方法中,有两个问题需要解决: 如何在每一轮的训练中改变数据的权值或是概率分布; 如何将弱分类器组合成一个强分类器。 AdaBoost算法 提升算法中,最具有代表性的算法是AdaB... 阅读全文
posted @ 2020-03-24 22:08 lincoding` 阅读(144) 评论(0) 推荐(0) 编辑