随笔分类 -  数据挖掘

时间序列挖掘-DTW加速算法FastDTW简介
摘要:本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。 关于DTW算法的简介请见我的上一篇博客:时间序列挖掘-动态时间归整算法原理和实现。 DTW采用动态规划来计算两个时间序列之间的相似性,算法复杂度为O(N2)。当两个时间序列都比较长时,DTW算法效率比较慢,不能满足需求,为此,有许多对DTW进行加速的算法:FastDTW,SparseDTW,LB_Keogh,LB_Improved等。在这里我们介绍FastDTW。 1. 标准DTW算法 在DTW中,我们要寻找的是一个归整路径(详见时间序列挖掘-动. 阅读全文

posted @ 2013-04-18 17:29 潘的博客 阅读(30080) 评论(2) 推荐(1)

时间序列挖掘-动态时间归整原理及实现(Dynamic Time Warping, DTW)
摘要:本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。 DTW是一种衡量两个时间序列之间的相似度的方法,主要应用在语音识别领域来识别两段语音是否表示同一个单词。 1. DTW方法原理 在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在语音识别领域表现为不同人的语速不同。而且同一个单词内的不同音素的发音速度也不同,比如有的人会把‘A’这个音拖得很长,或者把‘i’发的很短。另外,不同时间序列可能仅仅存在时间轴上的位移,亦即在还原位移的情况下,两个时间序列是一致的。在这些复杂情况下,使用传统.. 阅读全文

posted @ 2013-04-18 15:30 潘的博客 阅读(20307) 评论(2) 推荐(3)

Latent Semantic Analysis(LSA/ LSI)算法简介
摘要:本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。1. 传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度,从而得到和给定查询最相关的文档。 向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索,但是“说了或者写了哪些单词”和“真正想表达的意思”之间有很大的区别. 阅读全文

posted @ 2013-04-17 22:50 潘的博客 阅读(19498) 评论(0) 推荐(3)

时间序列挖掘-预测算法-三次指数平滑法(Holt-Winters)
摘要:在时间序列中,我们需要基于该时间序列当前已有的数据来预测其在之后的走势,三次指数平滑(Triple/Three Order Exponential Smoothing,Holt-Winters)算法可以很好的进行时间序列的预测。 时间序列数据一般有以下几种特点:1.趋势(Trend) 2. 季节性(Seasonality)。 趋势描述的是时间序列的整体走势,比如总体上升或者总体下降。下图所示的时间序列是总体上升的: 季节性描述的是数据的周期性波动,比如以年或者周为周期,如下图: 三次指数平滑算法可以对同时含有趋势和季节性的时间序列进行预测,该算法是基于一次指数平滑和二次指数平滑算法的。 一次. 阅读全文

posted @ 2013-04-01 15:53 潘的博客 阅读(42715) 评论(0) 推荐(3)

基于Elo Rating System的三国演义武将排名
摘要:Elo Rating System是国际象棋用来给选手打分的一个算法,详情见Elo Rating System。 我们可以用这个算法对三国中的武将进行打分,然后排名。数据来源为三国武将对战记录,摘录其中几条记录如下:张飞VS邓茂 零合,飞一枪刺死茂。 关羽VS程远志 零合,羽一刀挥远志为两段。 张飞VS高升 不数合,飞刺高升坠马。 孙坚VS赵弘 坚从城上飞身取弘,手夺弘槊,直刺下马。 华雄VS鲍忠 零合,忠欲退,被雄手起刀落,斩于马下。 程普VS胡轸 不数合,程普刺中胡轸咽喉,死于马下, 孙坚VS华雄 斗不到数合,寨后李肃军到……坚拨回马走……背后华雄追坚,坚勒回马又战十余合。坚败 华雄V.. 阅读全文

posted @ 2012-11-13 18:56 潘的博客 阅读(579) 评论(0) 推荐(0)

Elo Rating System
摘要:很多游戏都需要用到打分系统,比如11平台的天梯,魔兽世界的竞技场,还有国际象棋。Elo Rating System就是一个用来计算二人(或两个团队)竞技游戏中各个选手(团队)等级的算法。该算法由匈牙利裔美籍物理学家Arpad Elo发明。 在打分系统中,每个选手都有一个数字,代表其等级。数字越大的选手等级越高,而分数是由和其他选手竞技得来的,赢得比赛就加分,输掉比赛则扣分。赢得或输掉的分数取决于对战双方的等级差距。比如,如果一个选手A赢了一个比他等级高很多的选手B,则A的等级就会提高跟多,B的等级则会降低很多,反之,如果选手A赢了一个等级远低于自己的选手B,则A的等级不会上升很多,而B的等级. 阅读全文

posted @ 2012-11-09 22:23 潘的博客 阅读(1353) 评论(0) 推荐(0)

模糊关联规则挖掘
摘要:模糊关联规则挖掘 关联规则挖掘是数据挖掘最基本和最常用的算法之一,Apriori算法基本上是每个学习数据挖掘的同学掌握的第一个算法。但是,一般的关联规则挖掘算法无法处理涉及连续值的记录。 虽然某些算法把连续值通过划分区间的方法离散化,但是这种硬边界划分的方法效果并不是很好,一些在边缘附近的数据只能属于一个划分,而这与事实不符。比如,年龄的一个划分可以是青年,但如果我们把青年的区间定义为[20,30],则19岁的人就被排除在青年的范围之外了,显然这不是很合适。针对这种问题,我们可以基于模糊集把区间划分成多个模糊集,然后求得某个元素属于某个模糊集的概率(根据模糊隶属函数),这样的话每个元素都可以. 阅读全文

posted @ 2012-11-05 20:16 潘的博客 阅读(2892) 评论(0) 推荐(0)

相关性分析 -pearson spearman kendall相关系数
摘要:相关性分析 -pearson spearman kendall相关系数 先说独立与相关的关系:对于两个随机变量,独立一定不相关,不相关不一定独立。有这么一种直观的解释(不一定非常准确):独立代表两个随机变量之间没有任何关系,而相关仅仅是指二者之间没有线性关系,所以不难推出以上结论。 衡量随机变量相关性的方法主要有三种:pearson相关系数,spearman相关系数,kendall相关系数: 1. pearson相关系数,亦即皮尔逊相关系数 pearson相关系数用来衡量两个随机变量之间的相关性,计算公式为: 公式-1 其中cov(X,Y)也叫做X,Y的协方差,σX是X的标准差,μX是X... 阅读全文

posted @ 2012-11-01 16:17 潘的博客 阅读(32499) 评论(0) 推荐(1)

FCM聚类算法简介-转载
摘要:FCM聚类算法介绍 FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。1模糊集基本知识 首先说明隶属度函数的概念。隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常记做μA(x),其自变量范围是所有可能属于集合A的对象(即集合A所在空间中的所有点),取值范围是[0,1],即0<=μA(x)<=1。μA(x)=1表示x完全隶属于集合A,相当于传统集合概 阅读全文

posted @ 2012-11-01 11:44 潘的博客 阅读(4711) 评论(0) 推荐(0)

Apriori算法实战-福彩双色球
摘要:Apriori算法是数据挖掘的入门级算法,这里记录一下用Weka提供的Apriori实现对福彩双色球开奖结果的挖掘过程。 我们的挖掘目标是历届开奖结果中红球的频繁2,3项集。 1. 数据准备 福彩双色球的原理是红球33选6,蓝球是16选1,历届福彩双色球的中奖结果可以在乐彩网站找到,我们可以用一个非常简单的爬虫去爬取这些数据。我这里有已经爬好的数据,从2003年2月23号的第一期开始,到2012年10月24号为止,总共1403期,可以来信(kemaswill@163.com)索取。 双色球是从红球中33选6,所以条记录只有6个数,假设为3,7,11,18,25,29,我们需要对这种记录进行.. 阅读全文

posted @ 2012-10-25 15:22 潘的博客 阅读(1773) 评论(1) 推荐(1)

导航