2014 年 12月随笔档案 - 瞌睡中的葡萄虎

Spark On Yarn中spark.yarn.jar属性的使用

摘要：今天在测试spark-sql运行在yarn上的过程中，无意间从日志中发现了一个问题：spark-sql --master yarn14/12/29 15:23:17 INFO Client: Requesting a new application from cluster with 1 NodeM... 阅读全文

posted @ 2014-12-29 15:41 瞌睡中的葡萄虎阅读(12862) 评论(1) 推荐(0) 编辑

Spark ThriftServer使用的大坑

摘要：当用beeline连接default后，通过use xxx切换到其他数据库，再退出，再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default，此时后台连接的其实还是xxx测试步骤:1、beeline -u jdbc:... 阅读全文

posted @ 2014-12-25 17:07 瞌睡中的葡萄虎阅读(3790) 评论(0) 推荐(0) 编辑

SparkSQL External Datasource简易使用之CSV

摘要：下载源码&编译：git clone https://github.com/databricks/spark-csv.gitsbt/sbt assemblyMaven GAV：groupId: com.databricks.sparkartifactId: spark-csv_2.10version:... 阅读全文

posted @ 2014-12-24 10:40 瞌睡中的葡萄虎阅读(2003) 评论(0) 推荐(0) 编辑

SparkSQL External Datasource简易使用之AVRO

摘要：下载源码&编译：git clone https://github.com/databricks/spark-avro.gitsbt/sbt packageMaven GAV：groupId: com.databricks.sparkartifactId: spark-avro_2.10version... 阅读全文

posted @ 2014-12-24 10:38 瞌睡中的葡萄虎阅读(612) 评论(0) 推荐(0) 编辑

spark1.2.0版本SparkSQL使用parquet类型注意事项

摘要：在Spark1.2.0版本中是用parquet存储类型时注意事项：sql语句：select * from order_created_dynamic_partition_parquet;在spark-sql中执行结果：2014-05 [B@4621484a [B@3311163e2014-0... 阅读全文

posted @ 2014-12-23 17:37 瞌睡中的葡萄虎阅读(1214) 评论(0) 推荐(0) 编辑

spark-sql启动后在监控页面中显示的Application Name为SparkSQL::xxxx的疑问

摘要：启动spark-sql执行sql时，在监控页面中看到该Application的Name是SparkSQL:hadoop000(其中hadoop000是测试机器的hostname)，就有个想法，修改下该application的name，在spark-sql --help中看到--name NAME的参... 阅读全文

posted @ 2014-12-01 14:35 瞌睡中的葡萄虎阅读(1110) 评论(0) 推荐(0) 编辑

瞌睡中的葡萄虎

公告

12 2014 档案