摘要:场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作;使用技术:Spark Streaming + Spark JDBC External DataSourcesHDFS上文件的数据格式为:id、name、cityId,分隔符为tab1 ...
阅读全文
01 2015 档案
摘要:在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sql进行查询操作。External Data Sources API代码存放于org.apache.s...
阅读全文
摘要:PlantUML官网地址:http://www.plantuml.com/IDEA中安装PlantUML PluginsFile-->Settings-->Plugins-->Install JetBrains plugin...-->搜索plantuml搜索出来的plugins在左边的列表中展现,...
阅读全文
摘要:package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/...
阅读全文
摘要:命令行操作之Create Command1、Create Connection Functioncreate connection --cid 1 说明:Create new connection object for connector with id sqoop:000> create conn...
阅读全文
摘要:需求:将hive数据库中的TBLS表导出到HDFS之上; $SQOOP2_HOME/bin/sqoop.sh client sqoop:000> set server --host hadoop000 --port 12000 --webapp sqoopServer is set successf...
阅读全文
摘要:正在准备做Spark SQL external data source与关系型数据库交互的部分,参考下Sqoop2是如何操作关系型数据库的。下载地址:http://archive.cloudera.com/cdh5/cdh/5/下载并安装:cd /home/spark/app/wget http:/...
阅读全文