摘要:
构建在hadoop2.6.0之上的1.在官网下载spark-1.4.0-bin-hadoop2.6.tgz2.解压到你想要放的文件夹里,tar zxvf spark-1.4.0-bin-hadoop2.6.tgz3.配置profile sudo gedit /etc/profile在文件下面加入一下... 阅读全文
摘要:
1.复制hadoop-eclipse-plugin-2.6.0.jar插件到eclipse的plugins目录下(hadoop2.6的插件,在hadoop自带上没有,要上网下载,多试几个如果是从ubuntu自带的软件中心安装elcipse的话,则安装目录为:/usr/share/eclipse/dr... 阅读全文
摘要:
一:单机版1.sudo gedit ~/.bashrc 加入JDK路径#HADOOP VARIABLES START export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64export HADOOP_INSTALL=/home/sendi/ha... 阅读全文
摘要:
一:AdaBoost原理介绍 假设你是一名患者,有某些症状。你选择咨询多位医生,而不是一位。你根据医生现在的诊断准确率,对每位医生的诊断赋予一个权重。然后对每个医生的诊断结果,乘与他的诊断准确率。最终得出最大值结果的诊断作为最终的结果。在boosting方法中,权重赋予每个训练元组。迭代地学习k... 阅读全文
摘要:
前言有些算法书写的很白痴,或者翻译的很白痴。我一直认为算法本身并不是不容易理解的,只不过学究们总是喜欢用象牙塔的语言来表述那些让人匪夷所思般的概念。如果按照软件互联网化的发展思路来说,这是软件设计的初始阶段,不会考虑用户体验问题。就好像写论文一定不能口语化一样,感觉这是很愚蠢的事情,能把一个看似很复... 阅读全文
摘要:
简单的说就是根据一个根据对象的密度不断扩展的过程的算法。一个对象O的密度可以用靠近O的对象数来判断。学习DBSCAN算法,需要弄清楚几个概念:一:基本概念1.:对象O的是与O为中心,为半径的空间,参数,是用户指定每个对象的领域半径值。2.MinPts(领域密度阀值):对象的的对象数量。3.核心对象:... 阅读全文
摘要:
聚类算法有很多,不同聚类算法,特性不一样,使用场景不一样,根据算法思想可分为以下几类:1.基于划分方法k-means,k-modes, k-prototypes, k-medoids, CLARA, CLARANS,PCM2.基于层次方法chameleon, BIRCH, SBAC, ROCK,CU... 阅读全文
摘要:
一:算法介绍期望最大化算法,跟k-means一样属于基于划分的聚类,其实EM算法跟k-means算法思想很相似,主要步骤:期望步(E-步):给定当前的簇中心,每个对象都被指派到簇中心离该对象最近的簇。就是期望每个对象都属于最近的簇。最大化步(M-步):给定簇指派,对应每个簇,算法调整期中心,使得指派... 阅读全文
摘要:
http://blog.devtang.com/blog/2012/04/22/use-fmdb/ 阅读全文
摘要:
1.在elcipse上建立一个java project 项目名:mymahout2.建立libs文件夹,在mahout 0.9的lib文件夹下找到一下java包其中log4j.properties可在hadoop文件夹下找到。把他们放到libs文件夹下。3.把文件夹libs复制到mymahout项目... 阅读全文