所以燃

2013年12月9日

Data Mining --- Association Rule Mining

摘要: 一、基本概念支持度:support(a→b)=P(ab)置信度:confidence(a→b)=P(b|a)=P(ab)/P(a)相关性:Lift(a→b)=P(ab)/P(a)P(b)二、Aprior算法*Partition:扫描两遍数据库将数据分块,第一遍每块选出频繁集,第二遍找出全局频繁集。*DHP:减少candidate数量*DIC:减少扫描次数三、FP-tree四、挖掘多层关联规则1.uniform support:层间支持度相同,若祖先不频繁,则其后代也不频繁,可剪枝。2.reduced support:层间支持度递减,若祖先不满足本层最小支持度,其后代可能满足,若剪枝会丢失频繁项 阅读全文

posted @ 2013-12-09 23:01 Jizhiyuan 阅读(577) 评论(0) 推荐(0) 编辑

Data Minig --- Classification(supervised learning)

摘要: 一、决策树:tree construction & tree pruninga.ID3算法Gain(A)=Entropy(S) - Σ(Sv/S)*Entropy(Sv)b.C4.5算法GainRatio(A)=Gain(A)/SplitInfo(A)SplitInfo(A)=-Σ(Sv/S)log(Sv/S)c.Gini Index算法定义Gini系数如下:若将数据分成两个子集,则分割后的Gini系数为:提供最小的Ginisplit就被选为分割的标准。二、朴素贝叶斯分类p(c|x1…xn)=p(c)*p(x1|c)…*p(xn|c)/Σp(c)*p(x1|c)…*p(xn|c)三、B 阅读全文

posted @ 2013-12-09 22:19 Jizhiyuan 阅读(387) 评论(0) 推荐(0) 编辑

Data Mining --- Preprocessing

摘要: 1.数据描述:均值mean(x)=1/n*Σxi,加权均值wieghted-mean(x)=Σwixi/Σwi;中值median;众数mode。经验公式:mean-mode=3*(mean-median)。1/4和3/4分位数;总体方差σ和样本方差s。2.数据清理:对缺失数据忽略/填充,对噪声数据进行平滑(装箱Binning,回归Regression,聚类Clustering)a.等宽装箱(distance),等深装箱(frequency)b.回归c.聚类3、数据转换(去量纲)a.最小值-最大值标准化:b.Z-score标准化:c.小数点标准化:4.数据集成(相关分析、卡方检验)a.相关性系数 阅读全文

posted @ 2013-12-09 18:54 Jizhiyuan 阅读(534) 评论(0) 推荐(0) 编辑

Data Mining --- DataWareHouse

摘要: 一、数据仓库定义:面向主题、集成的、时变的、非易失的数据集合,并支持管理决策。数据仓库(联机分析处理OLAP)VS 数据库系统(联机事务处理OLTP):OLTP面向顾客用于查询处理,OLAP面向分析员用于数据分析;OLTP管理当前数据,OLAP管理大量历史数据;OLTP采用ER模型,OLAP采用星形或雪花模型。OLAP操作:上卷、下钻、切片、转轴。三层数据仓库结构:底层数据仓库服务器、中间层OLAP服务器、顶层客户。索引OLAP数据:位图索引。相比散列与树索引,位图索引把比较连接聚集等操作变成位运算,减少运行时间;字符串用位表示降低了空间和I/O开销。 阅读全文

posted @ 2013-12-09 15:43 Jizhiyuan 阅读(273) 评论(0) 推荐(0) 编辑

导航