上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 17 下一页
摘要: 环境:mahout-0.8hadoop-1.1.2ubuntu-12.04理论这里就不说了,直接上实例:下面举一个例子。数据准备:canopy.dat文件,COPY到HDFS上,文件内容如下:8.1 8.1 7.1 7.1 6.2 6.2 7.1 7.1 2.1 2.1 1.1 ... 阅读全文
posted @ 2014-05-27 16:42 JamesFan 阅读(504) 评论(0) 推荐(0) 编辑
摘要: Mahout – Clustering (聚类篇)Leave a reply什么是Mahout?” Apache Mahout™ project’s goal is to build a scalable machine learning library ”我来拓展一下:(1) Mahout 是Ap... 阅读全文
posted @ 2014-05-27 16:23 JamesFan 阅读(914) 评论(1) 推荐(0) 编辑
摘要: Mahout canopy聚类分类:机器学习2014-05-23 15:37192人阅读评论(0)收藏举报mahout机器学习目录(?)[-]Canopy 聚类一Canopy算法流程二MapReduce实现一簇定义二发现中心点三划分数据三API说明四参考文献Canopy 聚类一、Canopy算法流程... 阅读全文
posted @ 2014-05-27 16:11 JamesFan 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 使用mahout fpgrowth 首先,这篇文章的内容大部分取自国外一篇博客Finding association rules with Mahout Frequent Pattern Mining,写这个出于几个原因,一 原文是英文的;二该博客貌似还被墙了,反正我是用了goagent才看到的;... 阅读全文
posted @ 2014-05-26 17:42 JamesFan 阅读(450) 评论(0) 推荐(0) 编辑
摘要: apriori(arules)apriori()所属R语言包:arules Mining Associations with Apriori 矿业协会的Apriori 译者:生物统计家园网 机器人LoveR描述--------... 阅读全文
posted @ 2014-05-20 17:41 JamesFan 阅读(1953) 评论(0) 推荐(0) 编辑
摘要: 生成规则数据1、使用“:“,如x=1:10,注意该方法既可以递增也可以递减,如y=10:12、seq,有两种用法:①seq(起点,终点,步长); ②seq(length=9, from=1, to=5) seq还有一种简写:seq(x) #相当于1:length(x),但当length(x)为0时,... 阅读全文
posted @ 2014-05-20 16:49 JamesFan 阅读(5853) 评论(0) 推荐(0) 编辑
摘要: 基本运算符号1、基本数学计算+、-、*、/、^、%%(求模)、%/%(整除)注意:求模运算两边若为小数,则整数和小数部分分别求模。例:5.6%%2.22、比较运算>、=、 8) #返回一个向量 which(x > 8, arr.ind=T) #返回一个指示行列号的矩阵diff:差分,即x[i+1]-... 阅读全文
posted @ 2014-05-20 13:01 JamesFan 阅读(379) 评论(0) 推荐(0) 编辑
摘要: [plain]view plaincopya<-c(5,4,3,2,1)b<-c(1,2,3,4,5)c<-cbind(a,b)[plain] view plaincopyc[order(c[,1]),]#按第一列递增排序 阅读全文
posted @ 2014-05-20 12:43 JamesFan 阅读(7206) 评论(0) 推荐(0) 编辑
摘要: R语言中的字符处理(2011-07-10 22:29:48)转载▼标签:r语言字符处理字符串连接分割分类:RR的字符串处理能力还是很强大的,具体有base包的几个函数和stringr包。1.计算字符串的字符数nchar()2. 字符串连接paste(...,sep="",collapse=NULL)... 阅读全文
posted @ 2014-05-20 10:31 JamesFan 阅读(1315) 评论(0) 推荐(0) 编辑
摘要: 基本运算符号1、基本数学计算+、-、*、/、^、%%(求模)、%/%(整除)注意:求模运算两边若为小数,则整数和小数部分分别求模。例:5.6%%2.22、比较运算>、=、 8) #返回一个向量 which(x > 8, arr.ind=T) #返回一个指示行列号的矩阵diff:差分,即x[i+1]-... 阅读全文
posted @ 2014-05-20 09:50 JamesFan 阅读(1619) 评论(0) 推荐(0) 编辑
摘要: R语言:文本(字符串)处理与正则表达式(2014-03-27 16:40:44)转载▼标签:教育分类:R处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本。R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强,... 阅读全文
posted @ 2014-05-20 09:22 JamesFan 阅读(2577) 评论(0) 推荐(0) 编辑
摘要: 本文为原创,转载注明出处。系统环境:win7 x64R-3.1.0-win.exeRStudio-0.98.507.exe前置条件:必须拥有github仓库: 如:https://github.com/xxx/Rproject在已经有Github的用户基础上,执行下面操作1.下载git http:/... 阅读全文
posted @ 2014-05-19 11:17 JamesFan 阅读(1192) 评论(0) 推荐(0) 编辑
摘要: Git操作指南(2) —— Git Gui for Windows的建库、克隆(clone)、上传(push)、下载(pull)、合并 关于linux上建库等操作请看文章:http://hi.baidu.com/mvp_xuan/blog/item/30f5b700a832f0261d9583ad.... 阅读全文
posted @ 2014-05-19 09:51 JamesFan 阅读(929) 评论(0) 推荐(0) 编辑
摘要: 参考:http://www.rstudio.com/ide/docs/debugging/overview1.进入调试模式全选代码,点击source即可进入调试模式。2.进入for 调试在For中加browser(),即可进入For语句中,在右边可以看到每个值的变化。如:for(){browser(... 阅读全文
posted @ 2014-05-18 23:22 JamesFan 阅读(1409) 评论(0) 推荐(0) 编辑
摘要: 转:使用 python Matplotlib 库 绘图 及 相关问题使用 python Matplotlib 库绘图转:http://blog.csdn.net/daniel_ustc/article/details/9714163Matplotlib的安装matplotlib 是python最著名... 阅读全文
posted @ 2014-05-18 13:21 JamesFan 阅读(1552) 评论(0) 推荐(0) 编辑
摘要: 操作系统:win7 64位,但选择安装32位的python。1,python下载安装https://www.python.org/downloads/下载2.7版,一路下一步安装。并在path环境变量中加入python路径2.安装Numpy下载地址http://sourceforge.net/pro... 阅读全文
posted @ 2014-05-18 11:34 JamesFan 阅读(539) 评论(0) 推荐(0) 编辑
摘要: 1、下载hive包wget http://labs.mop.com/apache-mirror/hive/stable/hive-0.8.1.tar.gz,并用tar -xzvf 将其解压到要安装的目录,我是放在/home/ckl/hadoop-0.20.2/hive2、vim ~/.bashrce... 阅读全文
posted @ 2014-05-13 15:27 JamesFan 阅读(149) 评论(0) 推荐(0) 编辑
摘要: PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经... 阅读全文
posted @ 2014-05-10 18:24 JamesFan 阅读(497) 评论(0) 推荐(0) 编辑
摘要: c()功能函数,产数据用向量:一维数组,要求存放的数据类型一致矩阵:二维数组,要求存放的数据类型一致,用通过matrix函数创建数组:维度超过二维时建议用数组,用可araay函数创建数据框:相当于关系数据库的一张表,有多种模式的数据时建议用数据框。data.frame ... 阅读全文
posted @ 2014-05-07 10:04 JamesFan 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 1、内连接(自然连接): 只有两个表相匹配的行才能在结果集中出现 2、外连接: 包括 (1)左外连接(左边的表不加限制) (2)右外连接(右边的表不加限制) (3)全外连接(左右两表都不加限制) 3. 例子 a.txt1 2 3 4 2 18 3 44 3 37 2 58 4 3b.... 阅读全文
posted @ 2014-05-01 19:35 JamesFan 阅读(334) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 17 下一页