摘要: PageRank是网页重要程度计算方法,可推广到有向图结点的重要程度的计算。基本思想是在有向图上定义随机游走模型,在一定条件下,极限情况访问每个结点的概率收敛到平稳分布。 给定有n个结点强连通且非周期性的有向图,在其基础上定义随机游走模型。假设转移矩阵M,在时刻0,1,2,…,t,…访问各个结点概率为 则其极限存在,那么极限向量R表示马尔可夫链的平稳分布,满足 平稳分布R称为这个图的P... 阅读全文
posted @ 2020-05-03 16:09 lincoding` 阅读(1575) 评论(0) 推荐(0) 编辑
摘要: XGBoost 相比于GBDT 做了两方面的优化: 一是算法本身的优化:在算法的弱学习器模型选择上,对比GBDT只支持决策树,XGBoost 还可以直接很多其他的弱学习器。 在算法的损失函数上,除了本身的损失,XGBoost 还加上了正则化部分,可以防止过拟合,泛化能力更强。 在计算方式上,GBDT的损失函数只对误差部分做负梯度(一阶泰勒)展开,而XGBoost损失函数对误差部分做二阶泰勒展开,更... 阅读全文
posted @ 2020-05-03 16:08 lincoding` 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 对于发现频繁项集,Apriori是一个很好的算法,但Apriori在发现频繁项集的时候需要多次扫描数据库,这严重影响了速度。 而FP-growth算法基于Apriori构建,不过在完成相同的发现频繁集的任务上,它采用了一些不同的技术。将数据集存储在一个特定的被称为FP树的结构之后去发现频繁项集。这种做法使得其只需对数据库进行两次扫描,从而大大提高了其发现频繁项集的速度。 FP-growth发... 阅读全文
posted @ 2020-05-03 16:07 lincoding` 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 它在分类资料统计推断中的应用包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比 阅读全文
posted @ 2020-03-24 22:25 lincoding` 阅读(2340) 评论(0) 推荐(0) 编辑
摘要: Apriori原理说的是如果一个元素项不是频繁集,那么包含该元素项的超集也不是频繁集。 图1-1 Apriori搜索频繁项集的原理 Apriori 算法是发现频繁项集的一种方法。过程如下: 生成所有单个物品的项集列表。 接着扫描交易记录来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉。 对剩下来的项集进行组合以生成包含两个元素的项集。再重新扫描交易记录,去掉不满足最小支持... 阅读全文
posted @ 2020-03-24 22:22 lincoding` 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 关联规则(AssociationRules),无监督学习方法,用于知识发现。 其可以用于给数据进行标注,但缺点是其结果难以进行评估。 关联规则的最经典的案例就是购物篮分析。同样也可用于电影推荐、约会网站或者药物间的相互副作用。 关联规则首先定义:为项集(items),其中为项。 则为数据库(database),其中为事务(transaction)。事务是项的集合,即,每个事务有唯一的标识索... 阅读全文
posted @ 2020-03-24 22:21 lincoding` 阅读(2080) 评论(0) 推荐(0) 编辑
摘要: 蒙特卡洛法(Monte carlo method),也称为统计模拟方法,通过从概率模型的随机抽样进行近似数值计算的方法。 它要解决的问题是,假设概率分布的定义已知,通过抽样获得概率分布的随机样本,并通过得到的随机样本对概率分布的特征进行分析。故这种方法的核心即是随机抽样。 一般的蒙特卡洛法有直接抽样法、接受-拒绝抽样法、重要性抽样法等。 接受-拒绝抽样法(accept-reject samplin... 阅读全文
posted @ 2020-03-24 22:20 lincoding` 阅读(1817) 评论(0) 推荐(0) 编辑
摘要: 概率潜在语义分析(probabilistic latent semantic analysis,PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。 跟潜在语义分析相似,而其特点是基于概率模型,用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程。 概率潜在语义分析模型有生成模型,以及等价的共现模型。 假定n个文本的集合,文本中所有单词... 阅读全文
posted @ 2020-03-24 22:18 lincoding` 阅读(1307) 评论(0) 推荐(0) 编辑
摘要: 单词向量空间 通常文本的语义内容表示可以用一个简单的模型来表示--单词向量空间模型。 即对于一个给定的文本,用一向量表示该文本的语义,向量的每一个维度表示一个单词,其数值为该单词在文本中出现的频数或权数。而模型的基本假设是文本中所有单词的出现情况即表示该文本的语义内容。 关于不同文本之间的语义相似度的度量,则可以用文本在单词向量空间中所表示的向量进行内积,而内积值的大小对应了文本之间语义相似度... 阅读全文
posted @ 2020-03-24 22:17 lincoding` 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 主成分分析(principle component analysis,PCA),用正交变换将由线性相关变量表示的观测数据转换为少数几个由线性无关变量(称主成分)表示的数据的方法,即对数据进行降维处理。 这种方法的几何解释即是将样本映射到几个相互正交的向量上,并使得样本在所映射的向量上方差最大, 图1-1 样本在单个向量上的映射 可以定义N个样本在所映射的单个向量上方差Var 其中x'为... 阅读全文
posted @ 2020-03-24 22:16 lincoding` 阅读(682) 评论(0) 推荐(0) 编辑