2014年9月12日

Linux Shell:参数传递

摘要: $0-9$n$#$*$@ 阅读全文

posted @ 2014-09-12 13:59 宁 弘道 阅读(124) 评论(0) 推荐(0) 编辑

运维系列:08、Spark Shell

摘要: ./bin/spark-shell --master spark://MASTER:PORT启动集群模式:MASTER=spark://`hostname`:7077 bin/spark-shellbin/spark-shell --master spark://es122:7077单机模式:bin... 阅读全文

posted @ 2014-09-12 11:13 宁 弘道 阅读(353) 评论(0) 推荐(0) 编辑

开发系列:03、Spark Streaming Custom Receivers(译)

摘要: Spark Streaming can receive streaming data from any arbitrary data source beyond the one’s for which it has in-built support (that is, beyond Flume, K... 阅读全文

posted @ 2014-09-12 10:27 宁 弘道 阅读(612) 评论(0) 推荐(0) 编辑

运维系列:07、spark-submit

摘要: bin/spark-submit --helpUsage: spark-submit [options] [app options]Options:--master MASTER_URL spark://host:port, mesos://host:port, yarn, or local. -... 阅读全文

posted @ 2014-09-12 10:25 宁 弘道 阅读(423) 评论(0) 推荐(0) 编辑

开发系列:02、使用Scala和SBT开发Spark应用

摘要: 1、SBT添加插件.sbt/0.13/plugins/plugins.sbt 没用手工创建1 addSbtPlugin("com.typesafe.sbteclipse" % "sbteclipse-plugin" % "2.5.0")2 3 addSbtPlugin("com.github.mp... 阅读全文

posted @ 2014-09-12 10:19 宁 弘道 阅读(346) 评论(0) 推荐(0) 编辑

开发系列:01、使用Java和Maven开发Spark应用

摘要: 1、POM.xml 1 3 4.0.0 4 5 org.hansight.spark 6 examples 7 0.0.1-SNAPSHOT 8 jar 9 10 examples 11 http://maven.apac... 阅读全文

posted @ 2014-09-12 10:18 宁 弘道 阅读(1996) 评论(0) 推荐(0) 编辑

运维系列:06、Spark调优

摘要: 1、垃圾回收在conf/spark-env.sh中添加SPARK_JAVA_OPTS=-verberos:gc -XX;+PrintGCDetails -XX:+PrintGCTimeStamps如果发现集群耗费过多时间在垃圾回收上,可以通过spark.storage.memoryFaction调低... 阅读全文

posted @ 2014-09-12 10:12 宁 弘道 阅读(403) 评论(0) 推荐(0) 编辑

运维系列:05、Spark on Yarn

摘要: Spark 0.6.0开始支持此功能准备:运行Spark-on-YARN需要Spark的二进制发布包。参考编译配置:环境变量:SPARK_YARN_USER_ENV 用户可以在这个参数中设置Spark on YARN的环境变量,可以省略。 例如:SPARK_YARN_USER_ENV="JAVA_H... 阅读全文

posted @ 2014-09-12 10:10 宁 弘道 阅读(425) 评论(0) 推荐(0) 编辑

运维系列:04、Spark Standalone运行

摘要: 安装配置hosts配置: 用户: useradd spark1、SSH无密码登录2、JDK3、安装Scala 2.10.44、安装配置Spark4.1、解压与权限 chown -R spark:spark /opt/spark4.2、配置workervi conf/slavesES122ES123E... 阅读全文

posted @ 2014-09-12 10:08 宁 弘道 阅读(474) 评论(0) 推荐(0) 编辑

运维系列:03、Spark 单机版

摘要: 直接解压,无需配置运行样例:bin/run-example org.apache.spark.examples.GroupByTest 1 阅读全文

posted @ 2014-09-12 10:07 宁 弘道 阅读(230) 评论(0) 推荐(0) 编辑

运维系列:02、Spark的部署方式

摘要: 单机运行Standalone使用Spark本身提供的资源管理器,可以直接运行Yarn提供运行spark应用的jar包Mesos另一种资源管理系统Amazon EC2 / ElasticMapReduce安装工具:Chef 阅读全文

posted @ 2014-09-12 10:06 宁 弘道 阅读(198) 评论(0) 推荐(0) 编辑

运维系列:01、Spark编译与打包

摘要: 1、SBT编译vi project/SparkBuild.scala修改仓库:"Maven Repository" at "http://172.16.219.120:8080/nexus/content/groups/public/"SPARK_HADOOP_VERSION=2.4.0.2.1... 阅读全文

posted @ 2014-09-12 10:05 宁 弘道 阅读(760) 评论(0) 推荐(0) 编辑

原理系列:Spark1.x 生态圈一览

摘要: Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD。通... 阅读全文

posted @ 2014-09-12 10:04 宁 弘道 阅读(346) 评论(0) 推荐(0) 编辑

导航