摘要:order_created.txt 订单编号 订单创建时间10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12....
阅读全文
02 2015 档案
摘要:如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下,请不要进行如下调用:val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端,容易导致OOM或者crash;相反,如果你能通过调用take、tak...
阅读全文
摘要:对于调优和排错来说,查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种:1、通过SparkUI查看Task执行的partition数当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel...
阅读全文
摘要:通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍:/** * Save this RDD to a JDBC database at `url` under the table name `ta...
阅读全文
摘要:在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快。通过spark-shell测试:import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc)import sqlContex...
阅读全文
摘要:sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似。sqoop2-1.99.4环境搭建参见:Sqoop2环境搭建sqoop2-1.99.3版本实现参见:Sqoop2入门之导入关系型数据库数据到HDFS上启动sq...
阅读全文
摘要:场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作;Kafka发送过来的数据格式为:id、name、cityId,分隔符为tab1 zhangsan 12 lisi 13 wangwu ...
阅读全文