信方 - 博客园

2017年11月7日

摘要：在本地IDE里直接运行spark程序操作远程集群一般运行spark作业的方式有两种：本机调试，通过设置master为local模式运行spark作业，这种方式一般用于调试，不用连接远程集群。集群运行。一般本机调试通过后会将作业打成jar包通过spark-submit提交运行。生产环境一般使用这阅读全文

posted @ 2017-11-07 11:13 信方阅读(1162) 评论(0) 推荐(0) 编辑

Spark记录-SparkSQL

摘要： Spark SQL的一个用途是执行SQL查询。Spark SQL也可以用来从现有的Hive安装中读取数据。有关如何配置此功能的更多信息，请参阅Hive表部分。从另一种编程语言中运行SQL时，结果将作为数据集/数据框返回。您还可以使用命令行或通过JDBC / ODBC与SQL接口进行交互。参考：h 阅读全文

posted @ 2017-11-07 11:02 信方阅读(173) 评论(0) 推荐(0) 编辑

Spark记录-实例和运行在Yarn

摘要： #运行实例 #./bin/run-example SparkPi 10 #./bin/spark-shell --master local[2] #./bin/pyspark --master local[2] #./bin/spark-submit examples/src/main/python 阅读全文

posted @ 2017-11-07 10:38 信方阅读(1623) 评论(0) 推荐(0) 编辑

Spark记录-spark-submit学习

摘要： #查看帮助：./bin/spark-submit --help ./bin/spark-shell --help 用法1: spark-submit [options] <app jar | python file> [app arguments]用法2: spark-submit --kill [ 阅读全文

posted @ 2017-11-07 10:09 信方阅读(460) 评论(0) 推荐(0) 编辑

Spark记录-官网学习配置篇（二）

摘要： ### Spark SQL Running the SET -v command will show the entire list of the SQL configuration. 阅读全文

posted @ 2017-11-07 09:30 信方阅读(369) 评论(0) 推荐(0) 编辑

2017年11月6日

Spark记录-官网学习配置篇（一）

摘要：参考http://spark.apache.org/docs/latest/configuration.html Spark提供三个位置来配置系统： Spark属性控制大多数应用程序参数，可以使用SparkConf对象或通过Java系统属性进行设置。可以使用环境变量通过conf/spark-env 阅读全文

posted @ 2017-11-06 15:23 信方阅读(3228) 评论(0) 推荐(0) 编辑

2017年11月3日

CM记录-配置Hive on Spark

摘要：默认hive on spark是禁用的，需要在Cloudera Manager中启用。1.登录CM界面，打开hive服务。2.单击配置标签，查找enable hive on spark属性。3.勾选Enbale Hive on Spark(Unsupported)，并保存更改。4.查找Spark 阅读全文

posted @ 2017-11-03 14:09 信方阅读(1971) 评论(0) 推荐(0) 编辑

Linux-Xshell会话保持

摘要： 1.Xshell客户端设置 2.服务端设置修改/etc/ssh/sshd_config文件，找到 ClientAliveInterval 0和ClientAliveCountMax 3并将注释符号（"#"）去掉, 将ClientAliveInterval对应的0改成60, ClientAliveI 阅读全文

posted @ 2017-11-03 09:55 信方阅读(3944) 评论(0) 推荐(0) 编辑

2017年10月31日

Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）

摘要： #spark2.2.0源码编译 #组件：mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz 下载源码 (如果是Hive on spark hive2.1.1对应spark1 阅读全文

posted @ 2017-10-31 19:47 信方阅读(4268) 评论(0) 推荐(0) 编辑

2017年10月30日

CM记录-集群运行故障修复记录

摘要：集群运行故障分析（空间不足、时钟误差、状态不良）调整空间、同步时间、重启修复后：各个数据节点容量分布情况阅读全文

posted @ 2017-10-30 15:43 信方阅读(303) 评论(0) 推荐(0) 编辑

信方互联网硬汉

行走互联，硬汉信方

公告