05 2013 档案
摘要:韩家炜 数据挖掘概念与技术 第三版 习题3.12取鸢尾花数据集iris.data作为待离散化的数据集合,使用ChiMerge算法,对四个数值属性进行离散化,对四个属性进行区间合并,最终合并区间个数剩下为6个即停:即max_interval=6。一、样本数据iris.data数据形式为:前面4列是属性,最后一列是数据类名,5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa6.6,2.9,4.6,1.3,Iris-versicolor5.2,2.7,3.9,1.4,Iris-versic
阅读全文
摘要:NB模型概率估计很差,但分类效果很好。朴素贝叶斯是产生模型,所以是要求联合概率的。建立 NB分类器有两种不同的方法:一种多项式NB模型,它在文档的每个位置上生成词表中的一个词项。(推荐使用)另外一种方法是多元贝努利模型(multivariate Bernoulli model)或者直接称为贝努利模型 。(该模型常出错,不推荐使用)小规律小结小结1:贝叶斯模型里,只要是求条件概率:p(x|y) ,即是已知隐变量类别y条件下 求可见变量x的概率 一般是可直接一步得出, 从训练集求得的,用词频相除即可求。小结2:多项式模型 P(d|c) = P(<t1, …, tk , … , tnd >
阅读全文
摘要:因子分析(还没有完全弄透)一、总结:因子分析其实就是降维。 (详细笔记见--斯坦福机器学习讲义: 因子分析笔记) 强烈建议回看因子分析其实就是认为高维样本点实际上是由低维样本 点经过高斯分布、线性变换、误差扰动生成的,因此高维数据可以使用低维来表示。因子分析是对应无监督学习问题,因为用到EM算法,还是有EM算法的,E步都是求出隐性变量Z,而z表示可能的类别,所以凡是有EM算法的,一定是无监督学习.什么情况下用因子分析:之前我们考虑的训练数据中样例x(i)的个数m都远远大于其特征个数n,这样不管是进 行回归、聚类等都没有太大的问题。然而当训练样例个数 m 太小,甚至 m<<n 的时候
阅读全文
摘要:主要是对Ng教授的machinelearning视频学习和参考jerryLead讲义整理(特别鸣谢~):由“判别模型、生成模型与朴素贝叶斯方法 ”一节得知:判别模型求的是条件概率p(y|x),生成模型求的是联合概率p(x,y) .即 =p(x|y) ∗ p(y)常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件 随机场、神经网络等。常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。所以这里说的高斯混合模型,朴素贝叶斯模型都是求p(x,y)联合概率的。(下面推导会见原因)套路小结:.
阅读全文
摘要:kmeans 聚类
阅读全文
摘要:Python 初始化多维数组链接:http://www.cnblogs.com/coderzh/archive/2008/05/18/1201993.html基本方法就是list里套list:Python中初始化一个5 x 3每项为0的数组,最好方法是:multilist=[[0forcolinrange(5)]forrowinrange(3)]我们知道,为了初始化一个一维数组,我们可以这样做:alist=[0]*5没错,那我们初始化一个二维数组时,是否可以这样做呢:multi=[[0]*5]*3其实,这样做是不对的,因为[0] * 5是一个一维数组的对象,* 3的话只是把对象的引用复制了3次
阅读全文
摘要:URL 分析 统计 url里的博客 单词 个数
阅读全文
摘要:Windows -- Preferences -- Pydev -- editor --Appearance color and fonts
阅读全文
摘要:使用python2.7eclipse3.6 (版本高点,才能看到eclipse的help->install new software)方法1.直接从eclipse网上下载pydev:step1: eclipse:help->install new software -->add添加名字PyDev ,http://pydev.org/updates/然后会发现有pending....标记等片段 会出现新窗口,next下去,中间有段时间要install,然后提示restall eclipse.-----------------------------------------方法2
阅读全文