瞌睡中的葡萄虎

【knowledgebase】不要在一个很大的RDD上调用collect

摘要：如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下，请不要进行如下调用：val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端，容易导致OOM或者crash；相反，如果你能通过调用take、tak... 阅读全文

posted @ 2015-02-09 14:46 瞌睡中的葡萄虎阅读(1442) 评论(0) 推荐(0) 编辑

【knowledgebase】如何知道partition数

摘要：对于调优和排错来说，查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种：1、通过SparkUI查看Task执行的partition数当一个stage执行时，能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel... 阅读全文

posted @ 2015-02-09 14:46 瞌睡中的葡萄虎阅读(828) 评论(0) 推荐(0) 编辑

Spark SQL External Data Sources JDBC官方实现写测试

摘要：通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍：/** * Save this RDD to a JDBC database at `url` under the table name `ta... 阅读全文

posted @ 2015-02-05 16:41 瞌睡中的葡萄虎阅读(1701) 评论(0) 推荐(0) 编辑

Spark SQL External Data Sources JDBC官方实现读测试

摘要：在最新的master分支上官方提供了Spark JDBC外部数据源的实现，先尝为快。通过spark-shell测试：import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc)import sqlContex... 阅读全文

posted @ 2015-02-05 15:24 瞌睡中的葡萄虎阅读(1396) 评论(0) 推荐(0) 编辑

Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)

摘要： sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同：新版本中使用link代替了老版本的connection，其他使用类似。sqoop2-1.99.4环境搭建参见：Sqoop2环境搭建sqoop2-1.99.3版本实现参见：Sqoop2入门之导入关系型数据库数据到HDFS上启动sq... 阅读全文

posted @ 2015-02-02 11:50 瞌睡中的葡萄虎阅读(10004) 评论(0) 推荐(0) 编辑

Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例

摘要：场景：使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作；Kafka发送过来的数据格式为：id、name、cityId，分隔符为tab1 zhangsan 12 lisi 13 wangwu ... 阅读全文

posted @ 2015-02-02 10:37 瞌睡中的葡萄虎阅读(1475) 评论(1) 推荐(0) 编辑

Spark Streaming、HDFS结合Spark JDBC External DataSouces处理案例

摘要：场景：使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作；使用技术：Spark Streaming + Spark JDBC External DataSourcesHDFS上文件的数据格式为：id、name、cityId，分隔符为tab1 ... 阅读全文

posted @ 2015-01-26 14:43 瞌睡中的葡萄虎阅读(2084) 评论(5) 推荐(1) 编辑

Spark SQL External Data Sources JDBC简易实现

摘要：在spark1.2版本中最令我期待的功能是External Data Sources，通过该API可以直接将External Data Sources注册成一个临时表，该表可以和已经存在的表等通过sql进行查询操作。External Data Sources API代码存放于org.apache.s... 阅读全文

posted @ 2015-01-20 13:54 瞌睡中的葡萄虎阅读(3424) 评论(0) 推荐(0) 编辑

IDEA中PlantUML的使用

摘要： PlantUML官网地址：http://www.plantuml.com/IDEA中安装PlantUML PluginsFile-->Settings-->Plugins-->Install JetBrains plugin...-->搜索plantuml搜索出来的plugins在左边的列表中展现，... 阅读全文

posted @ 2015-01-09 10:53 瞌睡中的葡萄虎阅读(29460) 评论(0) 推荐(2) 编辑

Spark JdbcRDD 简单使用

摘要： package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/... 阅读全文

posted @ 2015-01-08 18:11 瞌睡中的葡萄虎阅读(4437) 评论(0) 推荐(0) 编辑

瞌睡中的葡萄虎

公告