03 2014 档案

摘要:1. 设置SCALA_VERSION2. 执行conf/spark-env.sh3. 设置CLASSPATH=4. 如果存在assembly/target/scala-$SCALA_VERSION/spark-assembly*hadoop*-deps.jar,则添加[core|repl|mllib|bagel|graphx|streaming]/target/scala-$SCALA_VERSION/classes:/assembly/target/scala-$SCALA_VERSION/spark-assembly*hadoop*-deps.jar如果不存在,则检测RELEASE目录,存 阅读全文
posted @ 2014-03-26 08:13 飞天虎 阅读(509) 评论(0) 推荐(0)
摘要:1. 判断是否cygwin环境2. 设置SCALA_VERSION3. 设置SPARK_HOME4. 执行conf/spark-env.sh5. 如果运行类是org.apache.spark.deploy.master.Master或org.apache.spark.deploy.worker.Worker,设置SPARK_MEM=${SPARK_DAEMON_MEMORY:-512m}SPARK_DAEMON_JAVA_OPTS="$SPARK_DAEMON_JAVA_OPTS -Dspark.akka.logLifecycleEvents=true"OUR_JAVA_O 阅读全文
posted @ 2014-03-26 00:01 飞天虎 阅读(1181) 评论(0) 推荐(0)
摘要:1. 判断是否cygwin环境2. 设置SCALA_VERSION3. 设置SPARK_HOME4. 执行conf/spark-env.sh5. 设置EXAMPLES_DIR为example目录,设置SPARK_EXAMPLES_JAR为example/target/scala-$SCALA_VERSION/*assembly*[0-9Tg].jar,不存在则提示并退出6. CLASSPATH=$SPARK_EXAMPLES_JAR:7. 检测java,JAVA_HOME->java命令->退出8.JAVA_OPTS="$SPARK_JAVA_OPTS-Djava.lib 阅读全文
posted @ 2014-03-25 23:54 飞天虎 阅读(784) 评论(0) 推荐(0)
摘要:1. 使用方法:spark-daemon.sh [--config ] (start|stop) 2. 读取conf/spark-env.sh,获取配置变量3. 获取SPARK_IDENT_STRING,默认为当前用户名4. 设置SPARK_PRINT_LAUNCH_COMMAND为15. 获取SPARK_LOG_DIR,默认为logs目录。创建该目录,检测目录权限并设置6. 获取SPARK_PID_DIR,默认为/tmp目录7. 设置日志文件名、输出文件名、PID文件名、日志级别8. 获取SPARK_NICENESS,默认为0start命令:1. 如果PID文件存在,使用kill -0... 阅读全文
posted @ 2014-03-25 23:39 飞天虎 阅读(1076) 评论(0) 推荐(0)
摘要:1. 设置主目录和配置目录2. 启动Mastersbin/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip $SPARK_MASTER_IP --port $SPARK_MASTER_PORT --webui-port $SPARK_MASTER_WEBUI_PORT3. 启动slaves单实例:sbin/start-slave.sh 1 spark://$SPARK_MASTER_IP:$SPARK_MASTER_PORT多实例:sbin/start-slave.sh i spark://$SPARK_MAS 阅读全文
posted @ 2014-03-25 23:15 飞天虎 阅读(382) 评论(0) 推荐(0)
摘要:1. 检查$SPARK_PUBLIC_DNS并设置,与EC2有关,略...2. 执行sbin/start-daemon.shstart org.apache.spark.deploy.worker.Worker "$@" 阅读全文
posted @ 2014-03-25 23:05 飞天虎 阅读(412) 评论(0) 推荐(0)
摘要:1. 如果参数小于1,返回。格式:slaves.sh [--config ] command...2. 执行sbin/spark-config.sh,加载基本环境变量3. 设置HOSTLIST为变量$SPARK_SLAVES的值4. 如果存在,获取--config参数,即配置文件目录,目录不存在则返回5. 执行conf/spark-env.sh6. 如果HOSTLIST为空,则设置为conf/slaves7. 设置ssh参数为“-o StrictHostKeyChecking=no”8. 加载$HOSTLIST文件中的列表地址,使用ssh登录并执行脚本参数传入的命令command9. slee 阅读全文
posted @ 2014-03-25 22:56 飞天虎 阅读(357) 评论(0) 推荐(0)
摘要:1. 运行sbin/spark-config.sh,设置SPARK_HOME和SPARK_CONF_DIR2. 如果conf/spark-env.sh,则运行该脚本,设置可选环境变量3. 检测环境变量SPARK_MASTER_PORT/SPARK_MASTER_IP,为master的端口/ip,默认为7077/{hostname}以上三项基本同start-master.sh相同4. 检测SPARK_WORKER_INSTANCES1) 如果为空,则执行脚本sbin/slaves.sh并传入命令sbin/slaves.sh的作用是使用ssh免登录进入slaves执行命令传入的命令是sbin/st 阅读全文
posted @ 2014-03-24 23:47 飞天虎 阅读(1511) 评论(0) 推荐(0)
摘要:1. 运行sbin/spark-config.sh,设置SPARK_HOME和SPARK_CONF_DIR2. 如果conf/spark-env.sh,则运行该脚本,设置可选环境变量3. 检测环境变量SPARK_MASTER_PORT/SPARK_MASTER_IP/SPARK_MASTER_WEBUI_PORT,为master的端口/ip/web界面端口,默认为7077/{hostname}/80804. 检测环境变量SPARK_PUBLIC_DNS,基于EC2的配置,略过...5. 运行sbin/spark-daemon.shstart org.apache.spark.deploy.ma 阅读全文
posted @ 2014-03-24 23:40 飞天虎 阅读(648) 评论(0) 推荐(0)
摘要:设置环境变量export SPARK_PREFIX=`dirname "$this"`/..export SPARK_HOME=${SPARK_PREFIX}export SPARK_CONF_DIR="$SPARK_HOME/conf"即SPARK_PREFIX和SPARK_HOME设置为脚本目录的父目录SPARK_CONF_DIR设置为主目录下conf目录 阅读全文
posted @ 2014-03-24 23:32 飞天虎 阅读(335) 评论(0) 推荐(0)
摘要:1.2. 3. TODO...Note:start namenode|secondarynamenode|datanode|journalnode|dfs|dfsadmin|fsck|balancer|zkfc,则运行bin/hdfs加参数其他(如resourcemanager/nodemanager),运行bin/hadoop加参数 阅读全文
posted @ 2014-03-22 22:30 飞天虎 阅读(342) 评论(0) 推荐(0)
摘要:1. 执行libexec/yarn-config.sh2. 启动ResourceManager sbin/yarn-daemon.sh --config $YARN_CONF_DIR start resourcemanager3. 启动NodeManager sbin/yarn-daemons.sh --config $YARN_CONF_DIR start nodemanager 阅读全文
posted @ 2014-03-22 19:21 飞天虎 阅读(1783) 评论(0) 推荐(0)
摘要:1. 执行hdfs-config.sh2. 如果参数个数超过1,读取第一个参数。 -upgrade则继续,即dataStartOpt="",nameStartOpt="$@"; -rollback,则dataStartOpt="-rollback",nameStartOpt="-rollback $@"3. 执行bin/hdfsgetconf -namenodes获取NAMENODES 执行sbin/hadoop-daemons.sh"--config "$HADOOP_CONF_DIR&quo 阅读全文
posted @ 2014-03-22 19:14 飞天虎 阅读(2827) 评论(0) 推荐(0)
摘要:一、libexec/hdfs-config.sh执行hadoop-config.sh二、libexec/yarn-config.sh执行hadoop-config.shexport MALLOC_ARENA_MAX=${MALLOC_ARENA_MAX:-4}export YARN_CONF_DIR="${HADOOP_CONF_DIR:-$HADOOP_YARN_HOME/conf}"读取--hosts参数,设置为slavesfile三、libexec/mapred-config.sh执行hadoop-config.sh设置LOG:HADOOP_MAPRED_LOG_DI 阅读全文
posted @ 2014-03-22 17:09 飞天虎 阅读(2028) 评论(0) 推荐(0)
摘要:1. export JAVA_HOME2. 设置HADOOP_CONF_DIR,默认etc/hadoop3. 设置HADOOP_CLASSPATH为contrib/capacity-scheduler/*.jar,即将所有jar包加入HADOOP_CLASSPATH4. 设置HADOOP_OPTS,-Djava.net.preferIPv4Stack=true5. 设置其他环境变量export HADOOP_NAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit 阅读全文
posted @ 2014-03-22 16:58 飞天虎 阅读(2152) 评论(0) 推荐(0)
摘要:start-all.sh调用start-dfs.sh和start-yarn.shstart-dfs.sh和start-yarn.sh都调用libexec/hadoop-config.sh初始化环境配置一. libexec/hadoop-config.sh1. 初始化库文件环境变量,包括share/hadoop/*和lib/native,share目录是jar库文件,lib/native目录下是C/C++库文件2. 如果使用--config 参数,则设置为自定义配置文件目录HADOOP_CONF_DIR3. 检测conf/hadoop-env.sh是否存在,存在则设置conf为默认配置文件目录D 阅读全文
posted @ 2014-03-22 16:37 飞天虎 阅读(4127) 评论(0) 推荐(0)