2021 年 12月 5 日随笔档案 - Hubery_Jun

2021年12月5日

摘要： 1. 安装 sbt cd /home/hadoop/apps mkdir sbt cd sbt cp ~/Download/sbt-1.3.8.tgz . // 解压 tar -zxvf sbt-1.3.8.tgz // 将 sbt-launch.jar 拷贝到外层目录 cp sbt/bin/sbt 阅读全文

posted @ 2021-12-05 20:41 Hubery_Jun 阅读(937) 评论(0) 推荐(0) 编辑

Spark SQL UDF 函数（四）

摘要：在 Spark 中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)：即最基本的自定义函数，类似 to_char,to_date等 UDAF（User- Defined Aggregation Funcation）：用户自定义聚合函数，阅读全文

posted @ 2021-12-05 20:40 Hubery_Jun 阅读(327) 评论(0) 推荐(0) 编辑

数据读取保存（五）

摘要： Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统：文件格式：Text 文件、Json 文件、csv 文件、Sequence 文件以及 Object 文件文件系统：本地文件系统、HDFS、Hbase 以及数据库 1. 读写 text/hdfs 文件 text/hdfs 阅读全文

posted @ 2021-12-05 20:40 Hubery_Jun 阅读(58) 评论(0) 推荐(0) 编辑

Spark SQL 数据源（三）

摘要： Spark SQL 可以从多种数据源读取数据，也可以将数据写入多种数据源，如：json、txt、hdfs、parquet、jdbc、hive 等 1. 通用读取与保存读取 // 方法一，若没有指定文件格式，则默认为 parquet，也可以通过修改 spark.sql.sources.default 阅读全文

posted @ 2021-12-05 20:39 Hubery_Jun 阅读(518) 评论(0) 推荐(0) 编辑

Spark SQL （二）

摘要： 1. Spark SQL 概述 Spark SQL 是 spark 用来处理结构化数据的模块，它提供了2个编程抽象, 类似 Spark Core 中的 RDD： DataFrame DataSet 1.1 DataFrame 与 RDD 的区别 DataFrame 是一个分布式数据容器，类似于一张二阅读全文

posted @ 2021-12-05 20:37 Hubery_Jun 阅读(134) 评论(0) 推荐(0) 编辑

hive 之 DML 操作（六）

摘要： 1. 数据导入 1.1 向表中 load 数据 load 可以从本地服务器、hdfs 文件系统加载数据到数据表中： load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [par 阅读全文

posted @ 2021-12-05 20:32 Hubery_Jun 阅读(56) 评论(0) 推荐(0) 编辑

hive 之 DDL 操作（五）

摘要： DDL 操作是用于操作对象和对象的属性，这种对象包括数据库本身，以及数据库对象，像：表、视图等等 1. 数据库 1.1 创建数据库数据库在 HDFS 上的默认存储路径是 /user/hive/warehouse/*.db CREATE (DATABASE|SCHEMA) [IF NOT EXIST 阅读全文

posted @ 2021-12-05 20:31 Hubery_Jun 阅读(91) 评论(0) 推荐(0) 编辑

hive 数据类型（四）

摘要： 1. 基本数据类型 Hive数据类型 Java数据类型长度例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN boole 阅读全文

posted @ 2021-12-05 20:30 Hubery_Jun 阅读(254) 评论(0) 推荐(0) 编辑

hive 连接及使用（三）

摘要： 1. 连接有三种方式连接 hive： cli：直接输入 bin/hive 就可以进入 cli hiveserver2、beeline webui 1.1 hiveserver2/beeline 1、开启 hiveserver2 服务 // 前台运行，当 beeline 输入命令时，服务端会返回 O 阅读全文

posted @ 2021-12-05 20:29 Hubery_Jun 阅读(1040) 评论(0) 推荐(0) 编辑

hive 更换 tez 引擎（二）

摘要： 1、下载这里选择的版本是 0.9.2，下载地址 [hadoop@hadoop1 big_source]$ tar -zxvf apache-tez-0.9.2-bin.tar.gz [hadoop@hadoop1 big_source]$ mv apache-tez-0.9.2-bin tez-0 阅读全文

posted @ 2021-12-05 20:27 Hubery_Jun 阅读(476) 评论(0) 推荐(0) 编辑

hive 安装部署（一）

摘要： 1. hive 安装 hive 下载地址 1、下载解压： // 这里选择的是 1.2.1 的版本 [hadoop@hadoop1 apps]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz // 修改名称为 hive [hadoop@hadoop1 apps]$ mv 阅读全文

posted @ 2021-12-05 20:25 Hubery_Jun 阅读(119) 评论(0) 推荐(0) 编辑

Hubery_Jun

公告