摘要: 时间序列(time series)是一系列有序的数据。通常是等时间间隔的采样数据。如果不是等间隔,则一般会标注每个数据点的时间刻度。 time series data mining 主要包括decompose(分析数据的各个成分,例如趋势,周期性),prediction(预测未来的值),classi 阅读全文
posted @ 2016-08-03 10:00 夕月一弯 阅读(8794) 评论(0) 推荐(0) 编辑
摘要: 这篇文章主要是一个闲文。如果您正在寻求一个理想的随机排列生成算法,直接阅读方法3,或是直接使用STL里提供的random_shuffle()方法另外请注意,这里所讨论的算法并不是新的。什么是随机排列? 一个随机排列是一组位于随机位置的对象。给定一个对象,1, 2, 3 ... n,随机排列看起来就是 阅读全文
posted @ 2016-08-03 09:38 夕月一弯 阅读(1998) 评论(0) 推荐(0) 编辑
摘要: 1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。 2.Jaccard index 在介绍MinHash之前,我们先介绍下Jaccard i 阅读全文
posted @ 2016-08-03 09:37 夕月一弯 阅读(1474) 评论(0) 推荐(0) 编辑
摘要: 我们知道,通过对数组进行直接寻址(Direct Addressing),可以在 O(1) 时间内访问数组中的任意元素。所以,如果存储空间允许,可以提供一个数组,为每个可能的关键字保留一个位置,就可以应用直接寻址技术。 哈希表(Hash Table)是普通数组概念的推广。当实际存储的的关键字数比可能的 阅读全文
posted @ 2016-08-03 09:36 夕月一弯 阅读(10273) 评论(0) 推荐(1) 编辑