随笔分类 -  SPARK

摘要:17/05/28 00:15:11 INFO client.RMProxy: Connecting to ResourceManager at spark01/127.0.0.1:803217/05/28 00:15:14 INFO input.FileInputFormat: Total inpu 阅读全文
posted @ 2017-05-28 22:52 jeffery1010 阅读(236) 评论(0) 推荐(0) 编辑
摘要:向hadoop导入文件,报错 .... There are 0 datanode(s) running and no node(s) are excluded in this operation. .... 查看配置 $hadoop_home/hadoop/etc/hdfs-site.xml <pr 阅读全文
posted @ 2017-05-27 18:05 jeffery1010 阅读(6661) 评论(0) 推荐(0) 编辑
摘要:总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs、mapreduce等主从关系。 1、环境,3台CentOS7,64位,Hadoop2.7.3需要64位Linux,CentOS7 Minimal的ISO文件只有600M,操作系统十 阅读全文
posted @ 2017-01-16 16:53 jeffery1010 阅读(746) 评论(0) 推荐(0) 编辑
摘要:链接地址: http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/ Spark On Mesos模式 http://vdisk.weibo.com/s/zm_eIVP-TpyqK 阅读全文
posted @ 2017-01-11 17:42 jeffery1010 阅读(3300) 评论(0) 推荐(0) 编辑
摘要:1.下载JDK http://www.oracle.com/technetwork/java/javase/downloads/index.html 2.删除系统现有JDK #rpm -qa | grep java tzdata-java-2014g-1.el6.noarchjava-1.7.0-o 阅读全文
posted @ 2017-01-11 10:09 jeffery1010 阅读(121) 评论(0) 推荐(0) 编辑
摘要:HBase: http://hbase.apache.org/ Hadoop hadoop.apache.org spark http://spark.apache.org/ 阅读全文
posted @ 2016-12-30 17:02 jeffery1010 阅读(126) 评论(0) 推荐(0) 编辑
摘要:示例数据模型 HBase中扩展和负载均衡的基本单元成为region,region本质上是以行健排序的连续存储区间。如果region太大,系统会把它们 自动拆分,相反的,就是把多个region合并,以减少存储文件的数量。 HBase中的region等同于数据库分区中的范围划分,它们可以被分配到若干物理 阅读全文
posted @ 2016-12-29 16:17 jeffery1010 阅读(291) 评论(0) 推荐(0) 编辑
摘要:Spark 提供了一个名为spark-submit 的单一工具来跨集群管理器的提交作业,命令如下: bin/spark-submit [options] <app jar | python file> [app options]1、[options]是spark-submit 的标志列表。你可以运行 阅读全文
posted @ 2016-12-29 13:49 jeffery1010 阅读(347) 评论(0) 推荐(0) 编辑
摘要:Spark 使用主从架构,有一个中心协调器和许多分布式worker。 中心协调器被称为driver。Driver 和被称为executor 的大量分布式worker 通信 Driver 运行在它自己的Java 进程,而每个executor 是单独的Java 进程。Driver 和它的所有execut 阅读全文
posted @ 2016-12-29 12:01 jeffery1010 阅读(960) 评论(0) 推荐(0) 编辑
摘要:1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 阅读全文
posted @ 2016-12-28 17:09 jeffery1010 阅读(182) 评论(0) 推荐(0) 编辑
摘要:SequenceFile读写文件Scala\java类型对应表 阅读全文
posted @ 2016-12-28 14:16 jeffery1010 阅读(897) 评论(0) 推荐(0) 编辑
摘要:#vi /etc/inittab,将 id:5:initdefault: 改为 id:3:initdefault: Linux 系统任何时候都运行在一个指定的运行级上,并且不同的运行级的程序和服务都不同,所要完成的工作和所要达到的目的都不同。CentOS设置了如下表所示的运行级,并且系统可以在这些运 阅读全文
posted @ 2016-04-30 17:01 jeffery1010 阅读(1821) 评论(0) 推荐(0) 编辑
摘要:SSH Secure File Transfer:向Linux系统传输文件工具 SSH Secure Shell :Linux命令行执行工具,提供了远程命令执行 SecureCRT: 是常用远程执行Linux命令行工具 阅读全文
posted @ 2016-04-30 16:45 jeffery1010 阅读(253) 评论(0) 推荐(0) 编辑
摘要:$cd /app/hadoop/spark-1.1.0/bin$spark-shell --master spark://SPARK02:7077 --executor-memory 500m特别需要注意的地方是:SPARK02 一定要保持与hosts文件配置大小写一致,否则将报错 阅读全文
posted @ 2016-01-07 14:49 jeffery1010 阅读(328) 评论(0) 推荐(0) 编辑
摘要:cd /app/sparkuser/spark-120/sbin./start-all.sh#./stop-all.sh #停止服务------------------- 阅读全文
posted @ 2016-01-07 14:26 jeffery1010 阅读(154) 评论(0) 推荐(0) 编辑
摘要:1. FS Shell1.1 简介调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是... 阅读全文
posted @ 2016-01-07 12:08 jeffery1010 阅读(1114) 评论(0) 推荐(0) 编辑
摘要:$cd /app/hadoop/hadoop-2.2.0/sbin $./start-yarn.sh 阅读全文
posted @ 2016-01-07 09:28 jeffery1010 阅读(175) 评论(0) 推荐(0) 编辑
摘要:$cd /app/hadoop/hadoop-2.2.0/sbin$./start-dfs.sh 阅读全文
posted @ 2016-01-07 00:22 jeffery1010 阅读(140) 评论(0) 推荐(0) 编辑
摘要:$cd /app/hadoop/hadoop-2.2.0/$./bin/hdfs namenode -format 阅读全文
posted @ 2016-01-07 00:21 jeffery1010 阅读(586) 评论(0) 推荐(0) 编辑
摘要:确认配置正确前提下,将name目录删除重建,再格式化;hadoop防止将已经存在的集群格式化 阅读全文
posted @ 2016-01-07 00:03 jeffery1010 阅读(1012) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示