FP - growth是一种比Apriori更高效的发现频繁项集的方法。FP是frequent pattern的简称,即常在一块儿出现的元素项的集合的模型。通过将数据集存储在一个特定的FP树上,然后发现频繁项集或者频繁项对。通常,FP-growth算法的性能比Apriori好两个数量级以上。 ... Read More
posted @ 2015-11-04 22:26 软件心理学工程师 Views(755) Comments(0) Diggs(0) Edit
在Oracle收购了SUN公司之后, MySQL很不幸的落在了Oracle的手中,MySQL与Oracle DB存在竞争关系,很可能导致Oracle公司影响MySQL的开发与开放。MySQL之父Widenius在意识到Oracle会对MySQL做动作之前对MySQL另开了一个Branch:Mar... Read More
posted @ 2015-11-03 09:20 软件心理学工程师 Views(1088) Comments(0) Diggs(0) Edit
数据计算和结果展示一直是数据挖掘领域的难点,一般情况下,数据都拥有超过三维,维数越多,处理上就越吃力。所以,采用降维技术对数据进行简化一直是数据挖掘工作者感兴趣的方向。 对数据进行简化的好处:使得数据集更易于使用,降低算法的计算开销,去除噪声,使得结果易懂。 主成分分析法(PCA)是一种常用的降维技 Read More
posted @ 2015-10-14 22:54 软件心理学工程师 Views(493) Comments(0) Diggs(0) Edit
关联分析是一种在大规模数据集中寻找有趣关系的任务,这些关系有两种形式:频繁项集和关联规则。频繁项集是经常出现在一起的物品的集合,关联规则暗示两种物品之间可能存在的很强的关系。如何寻找数据集中的频繁或关联关系呢?主要是通过支持度和可信度。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信... Read More
posted @ 2015-10-11 17:46 软件心理学工程师 Views(905) Comments(0) Diggs(0) Edit
上周出了个bug,按星期几查询数据的时候,发现查到的数据与显示的星期几并不相符,后来发现代码中按星期几查询,有的地方用的是Django QuerySet提供的'__week_day',有的地方用的是python datetime的weekday()方法!这两个方法对weekday的映射数字不同!__... Read More
posted @ 2015-09-14 09:41 软件心理学工程师 Views(1474) Comments(0) Diggs(0) Edit
当做重要决定时,大家可能都会吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法背后的思路。元算法是对其他算法进行组合的一种方式。自举汇聚法(bootstrap aggregating),也称为bagging方法,是从原始数据集选择S次后得到S个新数据集的一种技术。新数据... Read More
posted @ 2015-09-12 22:44 软件心理学工程师 Views(530) Comments(0) Diggs(0) Edit
Logistic回归也是一种分类算法,其主要思想是:根据现有数据对分类边界建立回归公式,以此进行分类。简单的说就是采用Logistic回归函数,接受所有的特征值输入,然后输出类别。Logistic函数又叫sigmoid函数:形状为:从上图容易看出,输入t,在x!=0的情况下,P(t)大于0.5 或小... Read More
posted @ 2015-09-02 23:23 软件心理学工程师 Views(464) Comments(0) Diggs(0) Edit
“贝叶斯定理是一则关于随机事件A和B的条件概率定理,其中P(A|B)是在B发生的情况下A发生的可能性。”---百度百科朴素贝叶斯是贝叶斯决策理论的一部分,贝叶斯决策定理的简单解释:p1(x,y)表示数据点(x,y)属于类别1的概率p2(x,y)表示数据点(x,y)属于类别2的概率那么对于一个新数据点... Read More
posted @ 2015-08-29 22:40 软件心理学工程师 Views(796) Comments(0) Diggs(0) Edit
基本概念: 根节点:没有入边,但有0条或多条出边 内部节点:恰有一条入边和两条或多条出边 叶节点:恰有一条入边,没有出边,每一个叶节点都赋予一个类标号(class label) 如何建立决策树 Hunt算法 :通过将训练记录相继划分成较纯的子集,以递归的方式建立决策树。 设Dt是与节点t相关联的训练 Read More
posted @ 2015-08-27 22:08 软件心理学工程师 Views(619) Comments(0) Diggs(0) Edit
寻找数据之间的相似性是数据聚合、分类、拟合预测等应用中常见的场景;寻找数据之间的相异性是异常检测,排除离群点等数据操作必需的步骤。所以计算数据之间的相似度和相异度是数据处理的基本手段,常用的方法是计算数据之间的距离和密度。 相似度顾名思义就是两个对象相似程度的数值度量,常常在0(不相似)和1(完全相 Read More
posted @ 2015-08-08 21:17 软件心理学工程师 Views(1710) Comments(0) Diggs(0) Edit