Spark - 随笔分类 - 瞌睡中的葡萄虎

Spark On YARN使用时上传jar包过多导致磁盘空间不够。。。

摘要：今天测试过程中发现YARN Node变成Unhealthy了，后来定位到硬盘空间不够。。。。。通过查找大于100M的文件时发现有N多个spark-assembly-1.4.0-SNAPSHOT-hadoop2.5.0-cdh5.3.1.jar包，大小为170多M，每提交一个application到y... 阅读全文

posted @ 2015-03-24 16:22 瞌睡中的葡萄虎阅读(838) 评论(0) 推荐(0)

Spark1.3使用外部数据源时条件过滤只要是字符串类型的值均报错

摘要：CREATE TEMPORARY TABLE spark_tblsUSING org.apache.spark.sql.jdbcOPTIONS (url 'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',dbtable ... 阅读全文

posted @ 2015-03-23 19:01 瞌睡中的葡萄虎阅读(808) 评论(0) 推荐(0)

spark1.3编译过程中遇到的一个坑

摘要：在编译spark1.3.0时：export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"mvn clean package -DskipTests -Phadoop-2.4 -Dhadoop.versi... 阅读全文

posted @ 2015-03-18 17:57 瞌睡中的葡萄虎阅读(1257) 评论(0) 推荐(0)

Hive On Spark环境搭建

摘要：Spark源码编译与环境搭建Note that you must have a version of Spark which does not include the Hive jars;Spark编译:git clone https://github.com/apache/spark.git sp... 阅读全文

posted @ 2015-03-10 18:03 瞌睡中的葡萄虎阅读(3206) 评论(0) 推荐(0)

RDD常用方法之subtract&intersection&cartesian

摘要：subtractReturn an RDD with the elements from `this` that are not in `other` . def subtract(other: RDD[T]): RDD[T]def subtract(other: RDD[T], numParti... 阅读全文

posted @ 2015-03-04 16:17 瞌睡中的葡萄虎阅读(1347) 评论(0) 推荐(0)

SparkSQL DataFrames操作

摘要：Hive中已经存在emp和dept表：select * from emp;+--------+---------+------------+-------+-------------+---------+---------+---------+| empno | ename | job ... 阅读全文

posted @ 2015-03-03 15:41 瞌睡中的葡萄虎阅读(1917) 评论(0) 推荐(0)

通过Spark SQL关联查询两个HDFS上的文件操作

摘要：order_created.txt 订单编号订单创建时间10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12.... 阅读全文

posted @ 2015-02-09 15:05 瞌睡中的葡萄虎阅读(1983) 评论(0) 推荐(0)

【knowledgebase】不要在一个很大的RDD上调用collect

摘要：如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下，请不要进行如下调用：val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端，容易导致OOM或者crash；相反，如果你能通过调用take、tak... 阅读全文

posted @ 2015-02-09 14:46 瞌睡中的葡萄虎阅读(1448) 评论(0) 推荐(0)

【knowledgebase】如何知道partition数

摘要：对于调优和排错来说，查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种：1、通过SparkUI查看Task执行的partition数当一个stage执行时，能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel... 阅读全文

posted @ 2015-02-09 14:46 瞌睡中的葡萄虎阅读(862) 评论(0) 推荐(0)

Spark SQL External Data Sources JDBC官方实现写测试

摘要：通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍：/** * Save this RDD to a JDBC database at `url` under the table name `ta... 阅读全文

posted @ 2015-02-05 16:41 瞌睡中的葡萄虎阅读(1703) 评论(0) 推荐(0)

Spark SQL External Data Sources JDBC官方实现读测试

摘要：在最新的master分支上官方提供了Spark JDBC外部数据源的实现，先尝为快。通过spark-shell测试：import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc)import sqlContex... 阅读全文

posted @ 2015-02-05 15:24 瞌睡中的葡萄虎阅读(1405) 评论(0) 推荐(0)

Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例

摘要：场景：使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作；Kafka发送过来的数据格式为：id、name、cityId，分隔符为tab1 zhangsan 12 lisi 13 wangwu ... 阅读全文

posted @ 2015-02-02 10:37 瞌睡中的葡萄虎阅读(1477) 评论(1) 推荐(0)

Spark Streaming、HDFS结合Spark JDBC External DataSouces处理案例

摘要：场景：使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作；使用技术：Spark Streaming + Spark JDBC External DataSourcesHDFS上文件的数据格式为：id、name、cityId，分隔符为tab1 ... 阅读全文

posted @ 2015-01-26 14:43 瞌睡中的葡萄虎阅读(2087) 评论(5) 推荐(1)

Spark SQL External Data Sources JDBC简易实现

摘要：在spark1.2版本中最令我期待的功能是External Data Sources，通过该API可以直接将External Data Sources注册成一个临时表，该表可以和已经存在的表等通过sql进行查询操作。External Data Sources API代码存放于org.apache.s... 阅读全文

posted @ 2015-01-20 13:54 瞌睡中的葡萄虎阅读(3442) 评论(0) 推荐(0)

Spark JdbcRDD 简单使用

摘要：package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/... 阅读全文

posted @ 2015-01-08 18:11 瞌睡中的葡萄虎阅读(4458) 评论(0) 推荐(0)

Spark On Yarn中spark.yarn.jar属性的使用

摘要：今天在测试spark-sql运行在yarn上的过程中，无意间从日志中发现了一个问题：spark-sql --master yarn14/12/29 15:23:17 INFO Client: Requesting a new application from cluster with 1 NodeM... 阅读全文

posted @ 2014-12-29 15:41 瞌睡中的葡萄虎阅读(12879) 评论(1) 推荐(0)

Spark ThriftServer使用的大坑

摘要：当用beeline连接default后，通过use xxx切换到其他数据库，再退出，再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default，此时后台连接的其实还是xxx测试步骤:1、beeline -u jdbc:... 阅读全文

posted @ 2014-12-25 17:07 瞌睡中的葡萄虎阅读(3797) 评论(0) 推荐(0)

SparkSQL External Datasource简易使用之CSV

摘要：下载源码&编译：git clone https://github.com/databricks/spark-csv.gitsbt/sbt assemblyMaven GAV：groupId: com.databricks.sparkartifactId: spark-csv_2.10version:... 阅读全文

posted @ 2014-12-24 10:40 瞌睡中的葡萄虎阅读(2005) 评论(0) 推荐(0)

SparkSQL External Datasource简易使用之AVRO

摘要：下载源码&编译：git clone https://github.com/databricks/spark-avro.gitsbt/sbt packageMaven GAV：groupId: com.databricks.sparkartifactId: spark-avro_2.10version... 阅读全文

posted @ 2014-12-24 10:38 瞌睡中的葡萄虎阅读(613) 评论(0) 推荐(0)

spark1.2.0版本SparkSQL使用parquet类型注意事项

摘要：在Spark1.2.0版本中是用parquet存储类型时注意事项：sql语句：select * from order_created_dynamic_partition_parquet;在spark-sql中执行结果：2014-05 [B@4621484a [B@3311163e2014-0... 阅读全文

posted @ 2014-12-23 17:37 瞌睡中的葡萄虎阅读(1215) 评论(0) 推荐(0)

瞌睡中的葡萄虎

公告

随笔分类 - Spark