摘要:
在windows上进行hadoop相关的开发,需要在eclipse上安装hadoop开发插件。最新释放出的hadoop包含源码的包,以hadoop-1.1.1为例,包含相关的eclipse插件的源码,因此可以针对自己的eclipse版本来编译一个hadoop的eclipse插件,我的eclipse的版本代号为indigo,以此为例,下面详细介绍插件的编译安装过程。一. 下载hadoop-1.1.1 我的下载地址为:(http://www.fayea.com/apache-mirror/hadoop/common/stable/hadoop-1.1.1.tar.gz)下载完成后解压到文件目... 阅读全文
摘要:
前面写的JAVA版的KMEANS比较恶心,现在补上一个简单的python版本。#kmeansimport mathdef doKmeansCluster(data, cnum, itnum): c = data[:cnum] for time in range(itnum): groups = [[] for i in range(len(c))] for d in data: min = distance(d,c[0]) index = 0 for i in range(len(c)):... 阅读全文
摘要:
1.安装hadoop 用hadoop用户登录master节点,直接将hadoop压缩包解压到master节点的/home/hadoop目录下,我安装的的hadoop版本是hadoop-0.20.203.0,解压完毕后进入hadoop-0.20.203.0目录。2.修改配置文件2.1 进入conf目录,修改core-site.xml,加入以下内容: <property> <name>fs.default.name</name> <value>hdfs://master:9000</value> </property> < 阅读全文
摘要:
这一段参考了网上一些其他作者的思路,主要查看了这篇帖子:http://50059.blog.51cto.com/40059/290460。下面说一下我的具体操作过程。 1.修改三个节点的host文件(三个节点相同): sudo vi /etc/hosts 加入以下三行: 192.168.1.90 master 192.168.1.91 slave1 192.168.1.92 slave2 2.在三个节点的hadoop用户目录下生成公钥/私钥对: ssh-keygen -t rsa 每个节点都会生成.ssh目录(用ls -al可以查看到隐藏文件和文件属性) cd .ssh... 阅读全文
摘要:
这几天看了一篇斯坦福Cheng-Tao Chu等人写的论文《Map-Reduce for Machine Learning on Multicore》,其中讲到如何把机器学习算法和MapReduce结合应用,利用最近炙手可热的云计算技术和传统的机器学习算法相结合,在拥有海量数据的数据中心上肯定能发挥很大的作用。因此,我决定使用hadoop搭一个测试环境来尝试一下论文中的方法。 首先介绍一下环境,我使用本人的笔记本电脑当服务器,配置是双核P8400,2G内存,操作系统是windows XP。在主机上使用vmware7.1.4虚拟了3个fedora12系统,每个都分配512的内存和10G的硬... 阅读全文
摘要:
这几天把Joshua Bloch的effective Java扫了一遍,记得前几年也曾想看过此书,不过看了几页就发现迫于自己的java基础和英语基础双双不过关,只能放弃,在经过了几年的修炼之后,在英文字典的帮助下,勉强可以理解一些内容了。既然看了就要留下点脚印,因此我把我觉得应该留点深刻印象的部分记录了下来,这其中也包含了我个人的一些理解。 Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE 1.使用静态工厂方法替代构造方法。好处有两点:第一,静态工厂方法是有名字的;第二,静态工厂方法可以不必要在每次调用时创建一个新的对象(对象池). 阅读全文
摘要:
今天把自己写的一个机器学习算法库中的K-means算法整理了一下,因为这个算法较其他的相比相对独立,可以单独贴出来,不会引用太多的其他类(不过还是有点引用,不过引用些简单的功能,看类名就知道什么意思了)。基本功能和规则为:1.当然是进行k-means算法,对数据集(这里使用二维数组来表示数据集,行数为数据总数,列数为数据维度)进行N维聚类2.可以指定收敛的阀值(convergenceDis默认为0.0001)3.为避免局部最小,可以指定重复运行次数,通过设定replicates的数值来指定,默认为0,即只重复一次聚类过程4.测试数据格式为每一行代表一个输入,用空格分隔输入的各个维度,为了计算. 阅读全文
摘要:
最近在用java写混合高斯聚类(Mixture Of Gaussian Clustering)问题,为了验证结果,找了一点数据分别在本人的程序上和Matlab上运行,最后进行比较。先简单讲一下调试的过程。一.数据准备 准备了两组数据,第一组使用Matlab生成的2个二维高斯分布的随机数据,这段是直接参照了Matlab的官方文档,代码如下:mu1 = [1 2];sigma1 = [3 .2; .2 2];mu2 = [-1 -2];sigma2 = [2 0; 0 1]; X = [mvnrnd(mu1,sigma1,200);mvnrnd(mu2,sigma2,100)];scatter(. 阅读全文