04 2013 档案

时间序列挖掘-DTW加速算法FastDTW简介
摘要:本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。 关于DTW算法的简介请见我的上一篇博客:时间序列挖掘-动态时间归整算法原理和实现。 DTW采用动态规划来计算两个时间序列之间的相似性,算法复杂度为O(N2)。当两个时间序列都比较长时,DTW算法效率比较慢,不能满足需求,为此,有许多对DTW进行加速的算法:FastDTW,SparseDTW,LB_Keogh,LB_Improved等。在这里我们介绍FastDTW。 1. 标准DTW算法 在DTW中,我们要寻找的是一个归整路径(详见时间序列挖掘-动. 阅读全文

posted @ 2013-04-18 17:29 潘的博客 阅读(30073) 评论(2) 推荐(1)

时间序列挖掘-动态时间归整原理及实现(Dynamic Time Warping, DTW)
摘要:本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。 DTW是一种衡量两个时间序列之间的相似度的方法,主要应用在语音识别领域来识别两段语音是否表示同一个单词。 1. DTW方法原理 在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在语音识别领域表现为不同人的语速不同。而且同一个单词内的不同音素的发音速度也不同,比如有的人会把‘A’这个音拖得很长,或者把‘i’发的很短。另外,不同时间序列可能仅仅存在时间轴上的位移,亦即在还原位移的情况下,两个时间序列是一致的。在这些复杂情况下,使用传统.. 阅读全文

posted @ 2013-04-18 15:30 潘的博客 阅读(20304) 评论(2) 推荐(3)

Hadoop Streaming 简介
摘要:Hadoop是用Java实现的,但是我们也可以使用其他语言来编写MapReduce程序,比如Shell,Python,Ruby等,下面简单介绍一下Hadoop Streaming,并使用Python作为例子。 1. Hadoop Streaming Hadoop Streaming的使用方式为:1 hadoop jar hadoop-streaming.jar -D property=value -mapper mapper.py -combiner combiner.py -reducer reducer.py -input Input -output Output -file mappe. 阅读全文

posted @ 2013-04-18 00:25 潘的博客 阅读(2759) 评论(0) 推荐(0)

Latent Semantic Analysis(LSA/ LSI)算法简介
摘要:本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。1. 传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度,从而得到和给定查询最相关的文档。 向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索,但是“说了或者写了哪些单词”和“真正想表达的意思”之间有很大的区别. 阅读全文

posted @ 2013-04-17 22:50 潘的博客 阅读(19497) 评论(0) 推荐(3)

时间序列挖掘-预测算法-三次指数平滑法(Holt-Winters)
摘要:在时间序列中,我们需要基于该时间序列当前已有的数据来预测其在之后的走势,三次指数平滑(Triple/Three Order Exponential Smoothing,Holt-Winters)算法可以很好的进行时间序列的预测。 时间序列数据一般有以下几种特点:1.趋势(Trend) 2. 季节性(Seasonality)。 趋势描述的是时间序列的整体走势,比如总体上升或者总体下降。下图所示的时间序列是总体上升的: 季节性描述的是数据的周期性波动,比如以年或者周为周期,如下图: 三次指数平滑算法可以对同时含有趋势和季节性的时间序列进行预测,该算法是基于一次指数平滑和二次指数平滑算法的。 一次. 阅读全文

posted @ 2013-04-01 15:53 潘的博客 阅读(42693) 评论(0) 推荐(3)

导航