tadoo

2012年12月11日

MapReduce and MachineLearning——笔记四（配置开发环境—上）

摘要：在windows上进行hadoop相关的开发，需要在eclipse上安装hadoop开发插件。最新释放出的hadoop包含源码的包，以hadoop-1.1.1为例，包含相关的eclipse插件的源码，因此可以针对自己的eclipse版本来编译一个hadoop的eclipse插件，我的eclipse的版本代号为indigo，以此为例，下面详细介绍插件的编译安装过程。一. 下载hadoop-1.1.1 我的下载地址为：（http://www.fayea.com/apache-mirror/hadoop/common/stable/hadoop-1.1.1.tar.gz）下载完成后解压到文件目... 阅读全文

posted @ 2012-12-11 21:41 tadoo 阅读(257) 评论(0) 推荐(0)

2012年8月12日

kmeans python

摘要：前面写的JAVA版的KMEANS比较恶心，现在补上一个简单的python版本。#kmeansimport mathdef doKmeansCluster(data, cnum, itnum): c = data[:cnum] for time in range(itnum): groups = [[] for i in range(len(c))] for d in data: min = distance(d,c[0]) index = 0 for i in range(len(c)):... 阅读全文

posted @ 2012-08-12 21:36 tadoo 阅读(367) 评论(0) 推荐(0)

2011年10月8日

MapReduce and MachineLearning——笔记三（配置hadoop环境）

摘要： 1.安装hadoop 用hadoop用户登录master节点，直接将hadoop压缩包解压到master节点的/home/hadoop目录下，我安装的的hadoop版本是hadoop-0.20.203.0，解压完毕后进入hadoop-0.20.203.0目录。2.修改配置文件2.1 进入conf目录，修改core-site.xml，加入以下内容： <property> <name>fs.default.name</name> <value>hdfs://master:9000</value> </property> < 阅读全文

posted @ 2011-10-08 16:19 tadoo 阅读(484) 评论(0) 推荐(0)

2011年10月7日

MapReduce and MachineLearning——笔记二（配置三个结点SSH无密码登录）

摘要：这一段参考了网上一些其他作者的思路，主要查看了这篇帖子：http://50059.blog.51cto.com/40059/290460。下面说一下我的具体操作过程。 1.修改三个节点的host文件（三个节点相同）： sudo vi /etc/hosts 加入以下三行： 192.168.1.90 master 192.168.1.91 slave1 192.168.1.92 slave2 2.在三个节点的hadoop用户目录下生成公钥/私钥对： ssh-keygen -t rsa 每个节点都会生成.ssh目录（用ls -al可以查看到隐藏文件和文件属性） cd .ssh... 阅读全文

posted @ 2011-10-07 19:10 tadoo 阅读(438) 评论(0) 推荐(0)

MapReduce and MachineLearning——笔记一（安装虚拟机和配置JAVA环境）

摘要：这几天看了一篇斯坦福Cheng-Tao Chu等人写的论文《Map-Reduce for Machine Learning on Multicore》，其中讲到如何把机器学习算法和MapReduce结合应用，利用最近炙手可热的云计算技术和传统的机器学习算法相结合，在拥有海量数据的数据中心上肯定能发挥很大的作用。因此，我决定使用hadoop搭一个测试环境来尝试一下论文中的方法。首先介绍一下环境，我使用本人的笔记本电脑当服务器，配置是双核P8400，2G内存，操作系统是windows XP。在主机上使用vmware7.1.4虚拟了3个fedora12系统，每个都分配512的内存和10G的硬... 阅读全文

posted @ 2011-10-07 14:51 tadoo 阅读(805) 评论(0) 推荐(0)

2011年8月19日

Effective Java笔记

摘要：这几天把Joshua Bloch的effective Java扫了一遍，记得前几年也曾想看过此书，不过看了几页就发现迫于自己的java基础和英语基础双双不过关，只能放弃，在经过了几年的修炼之后，在英文字典的帮助下，勉强可以理解一些内容了。既然看了就要留下点脚印，因此我把我觉得应该留点深刻印象的部分记录了下来，这其中也包含了我个人的一些理解。 Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE 1.使用静态工厂方法替代构造方法。好处有两点：第一，静态工厂方法是有名字的；第二，静态工厂方法可以不必要在每次调用时创建一个新的对象（对象池）. 阅读全文

posted @ 2011-08-19 13:07 tadoo 阅读(452) 评论(1) 推荐(0)

2011年6月2日

K-means聚类的java实现

摘要：今天把自己写的一个机器学习算法库中的K-means算法整理了一下，因为这个算法较其他的相比相对独立，可以单独贴出来，不会引用太多的其他类（不过还是有点引用，不过引用些简单的功能，看类名就知道什么意思了）。基本功能和规则为：1.当然是进行k-means算法，对数据集（这里使用二维数组来表示数据集，行数为数据总数，列数为数据维度）进行N维聚类2.可以指定收敛的阀值（convergenceDis默认为0.0001）3.为避免局部最小，可以指定重复运行次数，通过设定replicates的数值来指定，默认为0，即只重复一次聚类过程4.测试数据格式为每一行代表一个输入，用空格分隔输入的各个维度，为了计算. 阅读全文

posted @ 2011-06-02 15:47 tadoo 阅读(2857) 评论(5) 推荐(1)

2011年6月1日

进行混合高斯聚类时遇到的ill-Condition问题

摘要：最近在用java写混合高斯聚类（Mixture Of Gaussian Clustering）问题，为了验证结果，找了一点数据分别在本人的程序上和Matlab上运行，最后进行比较。先简单讲一下调试的过程。一.数据准备准备了两组数据，第一组使用Matlab生成的2个二维高斯分布的随机数据，这段是直接参照了Matlab的官方文档，代码如下：mu1 = [1 2];sigma1 = [3 .2; .2 2];mu2 = [-1 -2];sigma2 = [2 0; 0 1]; X = [mvnrnd(mu1,sigma1,200);mvnrnd(mu2,sigma2,100)];scatter(. 阅读全文

posted @ 2011-06-01 10:37 tadoo 阅读(2961) 评论(1) 推荐(0)

Better to light one candle than to curse the darkness.

公告