摘要:
PageRank是网页重要程度计算方法,可推广到有向图结点的重要程度的计算。基本思想是在有向图上定义随机游走模型,在一定条件下,极限情况访问每个结点的概率收敛到平稳分布。 给定有n个结点强连通且非周期性的有向图,在其基础上定义随机游走模型。假设转移矩阵M,在时刻0,1,2,…,t,…访问各个结点概率为 则其极限存在,那么极限向量R表示马尔可夫链的平稳分布,满足 平稳分布R称为这个图的P... 阅读全文
摘要:
XGBoost 相比于GBDT 做了两方面的优化: 一是算法本身的优化:在算法的弱学习器模型选择上,对比GBDT只支持决策树,XGBoost 还可以直接很多其他的弱学习器。 在算法的损失函数上,除了本身的损失,XGBoost 还加上了正则化部分,可以防止过拟合,泛化能力更强。 在计算方式上,GBDT的损失函数只对误差部分做负梯度(一阶泰勒)展开,而XGBoost损失函数对误差部分做二阶泰勒展开,更... 阅读全文
摘要:
对于发现频繁项集,Apriori是一个很好的算法,但Apriori在发现频繁项集的时候需要多次扫描数据库,这严重影响了速度。 而FP-growth算法基于Apriori构建,不过在完成相同的发现频繁集的任务上,它采用了一些不同的技术。将数据集存储在一个特定的被称为FP树的结构之后去发现频繁项集。这种做法使得其只需对数据库进行两次扫描,从而大大提高了其发现频繁项集的速度。 FP-growth发... 阅读全文