摘要: Sqoop安装过程 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 已经安装Hadoop-0.20.2,因 阅读全文
posted @ 2016-04-26 21:06 codingcat 阅读(218) 评论(0) 推荐(0) 编辑
摘要: Hadoop的小作业模式, 数据量小非常节约时间,测试使用Uber,数据量超过块大小就会自动启用了。 要启动ubertask,reduce数得是1。 参数设置: mapreduce.job.ubertask.enable mapreduce.job.ubertask.maxbytes //块大小 阅读全文
posted @ 2016-04-26 15:37 codingcat 阅读(9555) 评论(2) 推荐(1) 编辑
摘要: 参考:http://www.alluxio.com/2016/04/getting-started-with-alluxio-and-spark/ 环境: ubuntu14.04 64bit scala2.10.5 openjdk1.7 hadoop2.6 spark1.6 webui: http: 阅读全文
posted @ 2016-04-17 21:56 codingcat 阅读(405) 评论(0) 推荐(0) 编辑
摘要: apt-get install curl 提示没有这个软件源 1.更新软件源: sudo apt-get update sudo apt-get install curl 2.更新所有的软件 sudo apt-get dist-upgrade 阅读全文
posted @ 2016-03-05 22:00 codingcat 阅读(575) 评论(0) 推荐(0) 编辑
摘要: RDD的依赖关系和Stage的分类 在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,而这个状态有可能是从前一状态转换而来的,因此换句话说这一个RDD有可能与之前的RDD(s)有依赖关系。根据依赖关系的不同,可以将RDD分成两种不同的类型:Narrow Dependency和Wide 阅读全文
posted @ 2016-03-04 21:44 codingcat 阅读(141) 评论(0) 推荐(0) 编辑
摘要: The fundamental idea of MRv2 is to split up the two major functionalities of the JobTracker, resource management and job scheduling/monitoring, into s 阅读全文
posted @ 2016-03-04 21:42 codingcat 阅读(84) 评论(0) 推荐(0) 编辑
摘要: java.lang.NoClassDefFoundError:找不到相应的类文件,当编译源文件以后都会生成一些类文件:***.class,执行时要用java(main所在的类) ,如果找不到相应的类,执行就会出现NoClassDefFoundError的异常。1、首先请确认没有错敲成java xxx 阅读全文
posted @ 2016-03-04 21:41 codingcat 阅读(2138) 评论(0) 推荐(0) 编辑
摘要: Spark是一个通用且高速的大数据处理引擎,它采用了内存计算技术和DAG执行技术,大大提高了大数据处理速度,其效率在某些情况下是hadoop mapreduce引擎的10倍到100倍。此外,Spark还内建了例如MLlib,Spark SQL, Spark Streaming,GraphX等工具,为... 阅读全文
posted @ 2016-01-23 14:32 codingcat 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 目前Apache Spark支持三种分布式部署方式,分别是standalone、spark onmesos和 spark onYARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让S... 阅读全文
posted @ 2016-01-22 21:52 codingcat 阅读(663) 评论(0) 推荐(0) 编辑
摘要: 1.二分法2.Newton迭代法public int sqrt(int x) {//newton int i = 1; while(Math.abs(i*i-x) > 1)//精度控制 { i = (i+x/i)/2; } return i; }通过控制精度得到对... 阅读全文
posted @ 2016-01-19 21:37 codingcat 阅读(368) 评论(0) 推荐(0) 编辑