瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理
  148 随笔 :: 0 文章 :: 16 评论 :: 40万 阅读

01 2015 档案

摘要:场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作;使用技术:Spark Streaming + Spark JDBC External DataSourcesHDFS上文件的数据格式为:id、name、cityId,分隔符为tab1 ... 阅读全文
posted @ 2015-01-26 14:43 瞌睡中的葡萄虎 阅读(2085) 评论(5) 推荐(1) 编辑

摘要:在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sql进行查询操作。External Data Sources API代码存放于org.apache.s... 阅读全文
posted @ 2015-01-20 13:54 瞌睡中的葡萄虎 阅读(3429) 评论(0) 推荐(0) 编辑

摘要:PlantUML官网地址:http://www.plantuml.com/IDEA中安装PlantUML PluginsFile-->Settings-->Plugins-->Install JetBrains plugin...-->搜索plantuml搜索出来的plugins在左边的列表中展现,... 阅读全文
posted @ 2015-01-09 10:53 瞌睡中的葡萄虎 阅读(29481) 评论(0) 推荐(2) 编辑

摘要:package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/... 阅读全文
posted @ 2015-01-08 18:11 瞌睡中的葡萄虎 阅读(4444) 评论(0) 推荐(0) 编辑

摘要:命令行操作之Create Command1、Create Connection Functioncreate connection --cid 1 说明:Create new connection object for connector with id sqoop:000> create conn... 阅读全文
posted @ 2015-01-08 12:13 瞌睡中的葡萄虎 阅读(3529) 评论(0) 推荐(0) 编辑

摘要:需求:将hive数据库中的TBLS表导出到HDFS之上; $SQOOP2_HOME/bin/sqoop.sh client sqoop:000> set server --host hadoop000 --port 12000 --webapp sqoopServer is set successf... 阅读全文
posted @ 2015-01-07 17:57 瞌睡中的葡萄虎 阅读(2124) 评论(0) 推荐(0) 编辑

摘要:正在准备做Spark SQL external data source与关系型数据库交互的部分,参考下Sqoop2是如何操作关系型数据库的。下载地址:http://archive.cloudera.com/cdh5/cdh/5/下载并安装:cd /home/spark/app/wget http:/... 阅读全文
posted @ 2015-01-07 17:51 瞌睡中的葡萄虎 阅读(2393) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示