摘要:
1. 安装 sbt cd /home/hadoop/apps mkdir sbt cd sbt cp ~/Download/sbt-1.3.8.tgz . // 解压 tar -zxvf sbt-1.3.8.tgz // 将 sbt-launch.jar 拷贝到外层目录 cp sbt/bin/sbt 阅读全文
摘要:
在 Spark 中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function):即最基本的自定义函数,类似 to_char,to_date等 UDAF(User- Defined Aggregation Funcation):用户自定义聚合函数, 阅读全文
摘要:
Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统: 文件格式:Text 文件、Json 文件、csv 文件、Sequence 文件以及 Object 文件 文件系统:本地文件系统、HDFS、Hbase 以及数据库 1. 读写 text/hdfs 文件 text/hdfs 阅读全文
摘要:
Spark SQL 可以从多种数据源读取数据,也可以将数据写入多种数据源,如:json、txt、hdfs、parquet、jdbc、hive 等 1. 通用读取与保存 读取 // 方法一,若没有指定文件格式,则默认为 parquet,也可以通过修改 spark.sql.sources.default 阅读全文
摘要:
1. Spark SQL 概述 Spark SQL 是 spark 用来处理结构化数据的模块,它提供了2个编程抽象, 类似 Spark Core 中的 RDD: DataFrame DataSet 1.1 DataFrame 与 RDD 的区别 DataFrame 是一个分布式数据容器,类似于一张二 阅读全文
摘要:
1. 数据导入 1.1 向表中 load 数据 load 可以从本地服务器、hdfs 文件系统加载数据到数据表中: load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [par 阅读全文
摘要:
DDL 操作是用于操作对象和对象的属性,这种对象包括数据库本身,以及数据库对象,像:表、视图等等 1. 数据库 1.1 创建数据库 数据库在 HDFS 上的默认存储路径是 /user/hive/warehouse/*.db CREATE (DATABASE|SCHEMA) [IF NOT EXIST 阅读全文
摘要:
1. 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN boole 阅读全文
摘要:
1. 连接 有三种方式连接 hive: cli:直接输入 bin/hive 就可以进入 cli hiveserver2、beeline webui 1.1 hiveserver2/beeline 1、开启 hiveserver2 服务 // 前台运行,当 beeline 输入命令时,服务端会返回 O 阅读全文
摘要:
1、下载 这里选择的版本是 0.9.2,下载地址 [hadoop@hadoop1 big_source]$ tar -zxvf apache-tez-0.9.2-bin.tar.gz [hadoop@hadoop1 big_source]$ mv apache-tez-0.9.2-bin tez-0 阅读全文
摘要:
1. hive 安装 hive 下载地址 1、下载解压: // 这里选择的是 1.2.1 的版本 [hadoop@hadoop1 apps]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz // 修改名称为 hive [hadoop@hadoop1 apps]$ mv 阅读全文