瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理

随笔分类 -  Spark

1 2 3 下一页

摘要:今天测试过程中发现YARN Node变成Unhealthy了,后来定位到硬盘空间不够。。。。。通过查找大于100M的文件时发现有N多个spark-assembly-1.4.0-SNAPSHOT-hadoop2.5.0-cdh5.3.1.jar包,大小为170多M,每提交一个application到y... 阅读全文
posted @ 2015-03-24 16:22 瞌睡中的葡萄虎 阅读(834) 评论(0) 推荐(0) 编辑

摘要:CREATE TEMPORARY TABLE spark_tblsUSING org.apache.spark.sql.jdbcOPTIONS (url 'jdbc:mysql://hadoop000:3306/hive?user=root&password=root',dbtable ... 阅读全文
posted @ 2015-03-23 19:01 瞌睡中的葡萄虎 阅读(807) 评论(0) 推荐(0) 编辑

摘要:在编译spark1.3.0时:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"mvn clean package -DskipTests -Phadoop-2.4 -Dhadoop.versi... 阅读全文
posted @ 2015-03-18 17:57 瞌睡中的葡萄虎 阅读(1257) 评论(0) 推荐(0) 编辑

摘要:Spark源码编译与环境搭建Note that you must have a version of Spark which does not include the Hive jars;Spark编译:git clone https://github.com/apache/spark.git sp... 阅读全文
posted @ 2015-03-10 18:03 瞌睡中的葡萄虎 阅读(3192) 评论(0) 推荐(0) 编辑

摘要:subtractReturn an RDD with the elements from `this` that are not in `other` . def subtract(other: RDD[T]): RDD[T]def subtract(other: RDD[T], numParti... 阅读全文
posted @ 2015-03-04 16:17 瞌睡中的葡萄虎 阅读(1332) 评论(0) 推荐(0) 编辑

摘要:Hive中已经存在emp和dept表:select * from emp;+--------+---------+------------+-------+-------------+---------+---------+---------+| empno | ename | job ... 阅读全文
posted @ 2015-03-03 15:41 瞌睡中的葡萄虎 阅读(1915) 评论(0) 推荐(0) 编辑

摘要:order_created.txt 订单编号 订单创建时间10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12.... 阅读全文
posted @ 2015-02-09 15:05 瞌睡中的葡萄虎 阅读(1977) 评论(0) 推荐(0) 编辑

摘要:如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下,请不要进行如下调用:val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端,容易导致OOM或者crash;相反,如果你能通过调用take、tak... 阅读全文
posted @ 2015-02-09 14:46 瞌睡中的葡萄虎 阅读(1442) 评论(0) 推荐(0) 编辑

摘要:对于调优和排错来说,查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种:1、通过SparkUI查看Task执行的partition数当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel... 阅读全文
posted @ 2015-02-09 14:46 瞌睡中的葡萄虎 阅读(830) 评论(0) 推荐(0) 编辑

摘要:通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍:/** * Save this RDD to a JDBC database at `url` under the table name `ta... 阅读全文
posted @ 2015-02-05 16:41 瞌睡中的葡萄虎 阅读(1702) 评论(0) 推荐(0) 编辑

摘要:在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快。通过spark-shell测试:import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc)import sqlContex... 阅读全文
posted @ 2015-02-05 15:24 瞌睡中的葡萄虎 阅读(1400) 评论(0) 推荐(0) 编辑

摘要:场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作;Kafka发送过来的数据格式为:id、name、cityId,分隔符为tab1 zhangsan 12 lisi 13 wangwu ... 阅读全文
posted @ 2015-02-02 10:37 瞌睡中的葡萄虎 阅读(1476) 评论(1) 推荐(0) 编辑

摘要:场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作;使用技术:Spark Streaming + Spark JDBC External DataSourcesHDFS上文件的数据格式为:id、name、cityId,分隔符为tab1 ... 阅读全文
posted @ 2015-01-26 14:43 瞌睡中的葡萄虎 阅读(2085) 评论(5) 推荐(1) 编辑

摘要:在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sql进行查询操作。External Data Sources API代码存放于org.apache.s... 阅读全文
posted @ 2015-01-20 13:54 瞌睡中的葡萄虎 阅读(3425) 评论(0) 推荐(0) 编辑

摘要:package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/... 阅读全文
posted @ 2015-01-08 18:11 瞌睡中的葡萄虎 阅读(4441) 评论(0) 推荐(0) 编辑

摘要:今天在测试spark-sql运行在yarn上的过程中,无意间从日志中发现了一个问题:spark-sql --master yarn14/12/29 15:23:17 INFO Client: Requesting a new application from cluster with 1 NodeM... 阅读全文
posted @ 2014-12-29 15:41 瞌睡中的葡萄虎 阅读(12859) 评论(1) 推荐(0) 编辑

摘要:当用beeline连接default后,通过use xxx切换到其他数据库,再退出,再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default,此时后台连接的其实还是xxx测试步骤:1、beeline -u jdbc:... 阅读全文
posted @ 2014-12-25 17:07 瞌睡中的葡萄虎 阅读(3788) 评论(0) 推荐(0) 编辑

摘要:下载源码&编译:git clone https://github.com/databricks/spark-csv.gitsbt/sbt assemblyMaven GAV:groupId: com.databricks.sparkartifactId: spark-csv_2.10version:... 阅读全文
posted @ 2014-12-24 10:40 瞌睡中的葡萄虎 阅读(2002) 评论(0) 推荐(0) 编辑

摘要:下载源码&编译:git clone https://github.com/databricks/spark-avro.gitsbt/sbt packageMaven GAV:groupId: com.databricks.sparkartifactId: spark-avro_2.10version... 阅读全文
posted @ 2014-12-24 10:38 瞌睡中的葡萄虎 阅读(612) 评论(0) 推荐(0) 编辑

摘要:在Spark1.2.0版本中是用parquet存储类型时注意事项:sql语句:select * from order_created_dynamic_partition_parquet;在spark-sql中执行结果:2014-05 [B@4621484a [B@3311163e2014-0... 阅读全文
posted @ 2014-12-23 17:37 瞌睡中的葡萄虎 阅读(1213) 评论(0) 推荐(0) 编辑

1 2 3 下一页