随笔 - 232  文章 - 1  评论 - 24  阅读 - 45万

随笔分类 -  数据挖掘

决策树算法
摘要:一、算法概念 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型, 阅读全文
posted @ 2016-12-04 16:20 松伯 阅读(1844) 评论(0) 推荐(0) 编辑
行为统计学第二章知识总结(未完)
摘要:如何将数据组织成某些可理解的形式,使得他可以比较容易地发现数据的趋势,并与其他人交流,这就是描述性统计的任务:简化结构并整理组织数据。整理一组数据的最常用过程是将数据放入一个频数分布。 频数分布是一种组织好的关于位于测量量表每个类别上的个体数目的数据表。 频数分布的结构可以是表或涂,但是,在这两种情 阅读全文
posted @ 2016-05-10 00:08 松伯 阅读(813) 评论(0) 推荐(0) 编辑
行为科学统计第一章知识点总结
摘要:1、什么是总体?什么是样本?总体是一个研究的所有研究对象的个体的集合。样本是被选择出来的参与研究的特定的个体集合。样本被期望能够代表总体。 2、描述总体的特性的,如总体的平均数,被称为 参数。 3、总体和参数之间的关系与样本和 统计量 之间的关系是一样的。 4、统计技术被分为两大类。它们分别被称为什 阅读全文
posted @ 2016-05-08 13:26 松伯 阅读(884) 评论(0) 推荐(0) 编辑
海量数据处理技术学习
摘要:海量数据处理的常用技术可分为: 外排序:因为海量数据无法全部装入内存,所以数据的大部分存入磁盘中,小部分在排序需要时存入内存。 MapReduce:分布式处理技术 hash技术:以Bloom filter技术为代表 外排序:主要适用于大数据的排序、去重。 分布式处理技术:MapReduce 技术思想 阅读全文
posted @ 2016-03-11 22:13 松伯 阅读(633) 评论(0) 推荐(0) 编辑
算法学习
摘要:决策树是一种树状结构,它的每一个叶节点对应一个分类,非叶节点对应在某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本进行划分。 ID3算法 1、对当前样本集合计算所有属性的信息增益。 2、选择信息增益最大的属性作为测试属性,把测试 阅读全文
posted @ 2016-03-07 22:18 松伯 阅读(210) 评论(0) 推荐(0) 编辑
总体参数的估计(概念)
摘要:举例:到底北京人同意北京大力发展轨道交通,由于不大可能询问所有的一千多万北京市民,人们只好进行抽样调查以得到样本,并用样本中同意发展轨道交通的比例来估计真实的比例,从不同的样本得到的结论也不会完全一样。虽然真实的比例在这种抽样过程中永远不可能知道,但有可能知道估计出来的比例和真实的比例大致差多,从数 阅读全文
posted @ 2016-01-31 17:31 松伯 阅读(3909) 评论(0) 推荐(0) 编辑
PageRank算法
摘要:PageRank,网页排名,又称网页级别,传说中是PageRank算法拯救了谷歌,它是根据页面之间的超链接计算的技术,作为网页排名的要素之一。它通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,根据投票的来源(甚至来源的来源,即链接到A页面的 阅读全文
posted @ 2016-01-30 15:59 松伯 阅读(1168) 评论(0) 推荐(0) 编辑
机会的度量:概率和分布
摘要:在概率论中所说的事件(event)相当于集合论中的集合(set)。 互补事件的概率 如果一个不出现,则另一个肯定出现的两个事件成为互补事件(complementary events,或者互余事件或对立事件).按照集合的记号,如果一个事件记为A,那么另一个记为的补集。P(A) + P(A) = 1 , 阅读全文
posted @ 2016-01-30 12:21 松伯 阅读(688) 评论(0) 推荐(0) 编辑
统计学如何用少量数据概括数据(相关概念)
摘要:用少量数据来概括大量数字是日常生活中常见的。那么可以用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic),那么样本的随机性决定了统计量的随机性。 数据的"位置" 比如说哪个地方穷,那个 阅读全文
posted @ 2016-01-29 10:44 松伯 阅读(1753) 评论(0) 推荐(0) 编辑
统计学中抽样调查和一些常用的方法
摘要:抽样调查的领域涉及如何用有效的方式得到样本。这些调查都利用了问卷,而问卷的设计则很有学问。它设计如何用词、问题的次序和问题的选择与组合等等。涉及包括心理学、社会学等知识。问题的语言应该和被调查者的文化水平相适应。那么抽样调查的设计的目的之一是确保样本对总体的代表性,以保证后续推断的可靠性。然而每个个... 阅读全文
posted @ 2016-01-27 10:39 松伯 阅读(7787) 评论(1) 推荐(0) 编辑
邻接矩阵学习
摘要:邻接矩阵:是表示顶点之间相邻关系的矩阵。因此,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间的关系(边或弧)的数据,这个二维数组称为邻接矩阵。邻接矩阵又分为有向图邻接矩阵和无向图邻接矩阵。设G=(V,E)是一个图,其中V={v1,v2,.....,vn}。G的邻接矩阵是一个具有下列性质... 阅读全文
posted @ 2016-01-22 14:09 松伯 阅读(1335) 评论(0) 推荐(0) 编辑
最大熵的Java实现
摘要:这是一个最大熵的简明Java实现,提供训练与预测接口。训练采用GIS训练算法,附带示例训练集。本文旨在介绍最大熵的原理、分类和实现,不涉及公式推导或其他训练算法,请放心食用。最大熵理论简介最大熵属于辨识模型,能够满足所有已知的约束, 对未知的信息不做任何过分的假设。什么叫已知的约束?本文不会使用晦涩... 阅读全文
posted @ 2015-12-27 19:34 松伯 阅读(1617) 评论(0) 推荐(0) 编辑
最大期望算法 Expectation Maximization概念
摘要:在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clusteri... 阅读全文
posted @ 2015-12-27 19:11 松伯 阅读(653) 评论(0) 推荐(0) 编辑
Apriori 关联算法学习
摘要:1.挖掘关联规则1.1什么是关联规则一言蔽之,关联规则是形如X→Y的蕴涵式,表示通过X可以推导“得到”Y,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)1.2如何量化关联规则关联... 阅读全文
posted @ 2015-12-26 19:57 松伯 阅读(437) 评论(0) 推荐(0) 编辑
C4.5决策树算法概念学习
摘要:数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。•分类和聚类•分类(Classification)就是按照某种标准给对象贴标签,再根据标签来区分归类,类别数不变。•聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据... 阅读全文
posted @ 2015-12-20 22:14 松伯 阅读(847) 评论(0) 推荐(0) 编辑
线性回归概念学习
摘要:在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个... 阅读全文
posted @ 2015-12-20 21:05 松伯 阅读(1592) 评论(0) 推荐(0) 编辑
决策树概念学习
摘要:决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是... 阅读全文
posted @ 2015-12-19 22:08 松伯 阅读(905) 评论(0) 推荐(0) 编辑
数据挖掘10大算法详细介绍
摘要:想初步了解下怎样数据挖掘,看到一篇不错的文章转载过来啦~转自:http://blog.jobbole.com/89037/在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下。一旦你知道了这些算法是什么、怎么工作、能做什么、在哪里能找到,我希望你... 阅读全文
posted @ 2015-12-13 17:04 松伯 阅读(1044) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示