何为回归?“回归”一词是由达尔文的表兄弟Francis Galton发明的。Galton于1877年完成了第一次回归预测,目的是根据上一代豌豆种子(双亲)的尺寸来预测下一代豌豆种子(孩子)的尺寸。Galton在大量对象上应用了回归分析,甚至包括人的身高预测。他注意到,如果双亲的高高度比平均高度高,他... Read More
FP - growth是一种比Apriori更高效的发现频繁项集的方法。FP是frequent pattern的简称,即常在一块儿出现的元素项的集合的模型。通过将数据集存储在一个特定的FP树上,然后发现频繁项集或者频繁项对。通常,FP-growth算法的性能比Apriori好两个数量级以上。 ... Read More
在Oracle收购了SUN公司之后, MySQL很不幸的落在了Oracle的手中,MySQL与Oracle DB存在竞争关系,很可能导致Oracle公司影响MySQL的开发与开放。MySQL之父Widenius在意识到Oracle会对MySQL做动作之前对MySQL另开了一个Branch:Mar... Read More
数据计算和结果展示一直是数据挖掘领域的难点,一般情况下,数据都拥有超过三维,维数越多,处理上就越吃力。所以,采用降维技术对数据进行简化一直是数据挖掘工作者感兴趣的方向。 对数据进行简化的好处:使得数据集更易于使用,降低算法的计算开销,去除噪声,使得结果易懂。 主成分分析法(PCA)是一种常用的降维技 Read More
关联分析是一种在大规模数据集中寻找有趣关系的任务,这些关系有两种形式:频繁项集和关联规则。频繁项集是经常出现在一起的物品的集合,关联规则暗示两种物品之间可能存在的很强的关系。如何寻找数据集中的频繁或关联关系呢?主要是通过支持度和可信度。一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信... Read More
上周出了个bug,按星期几查询数据的时候,发现查到的数据与显示的星期几并不相符,后来发现代码中按星期几查询,有的地方用的是Django QuerySet提供的'__week_day',有的地方用的是python datetime的weekday()方法!这两个方法对weekday的映射数字不同!__... Read More
当做重要决定时,大家可能都会吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法背后的思路。元算法是对其他算法进行组合的一种方式。自举汇聚法(bootstrap aggregating),也称为bagging方法,是从原始数据集选择S次后得到S个新数据集的一种技术。新数据... Read More
Logistic回归也是一种分类算法,其主要思想是:根据现有数据对分类边界建立回归公式,以此进行分类。简单的说就是采用Logistic回归函数,接受所有的特征值输入,然后输出类别。Logistic函数又叫sigmoid函数:形状为:从上图容易看出,输入t,在x!=0的情况下,P(t)大于0.5 或小... Read More
“贝叶斯定理是一则关于随机事件A和B的条件概率定理,其中P(A|B)是在B发生的情况下A发生的可能性。”---百度百科朴素贝叶斯是贝叶斯决策理论的一部分,贝叶斯决策定理的简单解释:p1(x,y)表示数据点(x,y)属于类别1的概率p2(x,y)表示数据点(x,y)属于类别2的概率那么对于一个新数据点... Read More
基本概念: 根节点:没有入边,但有0条或多条出边 内部节点:恰有一条入边和两条或多条出边 叶节点:恰有一条入边,没有出边,每一个叶节点都赋予一个类标号(class label) 如何建立决策树 Hunt算法 :通过将训练记录相继划分成较纯的子集,以递归的方式建立决策树。 设Dt是与节点t相关联的训练 Read More