大数据系列 - 随笔分类 - Hubery_Jun

sbt 编译打包（六）

摘要：1. 安装 sbt cd /home/hadoop/apps mkdir sbt cd sbt cp ~/Download/sbt-1.3.8.tgz . // 解压 tar -zxvf sbt-1.3.8.tgz // 将 sbt-launch.jar 拷贝到外层目录 cp sbt/bin/sbt 阅读全文

posted @ 2021-12-05 20:41 Hubery_Jun 阅读(1063) 评论(0) 推荐(0)

Spark SQL UDF 函数（四）

摘要：在 Spark 中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User-Defined-Function)：即最基本的自定义函数，类似 to_char,to_date等 UDAF（User- Defined Aggregation Funcation）：用户自定义聚合函数，阅读全文

posted @ 2021-12-05 20:40 Hubery_Jun 阅读(368) 评论(0) 推荐(0)

数据读取保存（五）

摘要：Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统：文件格式：Text 文件、Json 文件、csv 文件、Sequence 文件以及 Object 文件文件系统：本地文件系统、HDFS、Hbase 以及数据库 1. 读写 text/hdfs 文件 text/hdfs 阅读全文

posted @ 2021-12-05 20:40 Hubery_Jun 阅读(87) 评论(0) 推荐(0)

Spark SQL 数据源（三）

摘要：Spark SQL 可以从多种数据源读取数据，也可以将数据写入多种数据源，如：json、txt、hdfs、parquet、jdbc、hive 等 1. 通用读取与保存读取 // 方法一，若没有指定文件格式，则默认为 parquet，也可以通过修改 spark.sql.sources.default 阅读全文

posted @ 2021-12-05 20:39 Hubery_Jun 阅读(627) 评论(0) 推荐(0)

Spark SQL （二）

摘要：1. Spark SQL 概述 Spark SQL 是 spark 用来处理结构化数据的模块，它提供了2个编程抽象, 类似 Spark Core 中的 RDD： DataFrame DataSet 1.1 DataFrame 与 RDD 的区别 DataFrame 是一个分布式数据容器，类似于一张二阅读全文

posted @ 2021-12-05 20:37 Hubery_Jun 阅读(162) 评论(0) 推荐(0)

hive 之 DML 操作（六）

摘要：1. 数据导入 1.1 向表中 load 数据 load 可以从本地服务器、hdfs 文件系统加载数据到数据表中： load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [par 阅读全文

posted @ 2021-12-05 20:32 Hubery_Jun 阅读(79) 评论(0) 推荐(0)

hive 之 DDL 操作（五）

摘要：DDL 操作是用于操作对象和对象的属性，这种对象包括数据库本身，以及数据库对象，像：表、视图等等 1. 数据库 1.1 创建数据库数据库在 HDFS 上的默认存储路径是 /user/hive/warehouse/*.db CREATE (DATABASE|SCHEMA) [IF NOT EXIST 阅读全文

posted @ 2021-12-05 20:31 Hubery_Jun 阅读(147) 评论(0) 推荐(0)

hive 数据类型（四）

摘要：1. 基本数据类型 Hive数据类型 Java数据类型长度例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN boole 阅读全文

posted @ 2021-12-05 20:30 Hubery_Jun 阅读(290) 评论(0) 推荐(0)

hive 连接及使用（三）

摘要：1. 连接有三种方式连接 hive： cli：直接输入 bin/hive 就可以进入 cli hiveserver2、beeline webui 1.1 hiveserver2/beeline 1、开启 hiveserver2 服务 // 前台运行，当 beeline 输入命令时，服务端会返回 O 阅读全文

posted @ 2021-12-05 20:29 Hubery_Jun 阅读(1262) 评论(0) 推荐(0)

hive 更换 tez 引擎（二）

摘要：1、下载这里选择的版本是 0.9.2，下载地址 [hadoop@hadoop1 big_source]$ tar -zxvf apache-tez-0.9.2-bin.tar.gz [hadoop@hadoop1 big_source]$ mv apache-tez-0.9.2-bin tez-0 阅读全文

posted @ 2021-12-05 20:27 Hubery_Jun 阅读(521) 评论(0) 推荐(0)

hive 安装部署（一）

摘要：1. hive 安装 hive 下载地址 1、下载解压： // 这里选择的是 1.2.1 的版本 [hadoop@hadoop1 apps]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz // 修改名称为 hive [hadoop@hadoop1 apps]$ mv 阅读全文

posted @ 2021-12-05 20:25 Hubery_Jun 阅读(148) 评论(0) 推荐(0)

Spark 读写 ES

摘要：1. spark 读取 ES import org.apache.spark.sql.SparkSession import org.elasticsearch.spark.rdd.EsSpark object esReadToHdfs { def main(args: Array[String]) 阅读全文

posted @ 2021-11-17 21:55 Hubery_Jun 阅读(836) 评论(0) 推荐(0)

RDD 编程（一）

摘要：1. RDD 的创建创建 RDD 有三种方式：从集合中创建从外部存储创建从其他 RDD 转换得到新的 RDD 1.1 从集合中创建 1、使用 parallelize 函数： import org.apache.spark.sql.SparkSession object CreateRdd { 阅读全文

posted @ 2021-10-10 22:40 Hubery_Jun 阅读(402) 评论(0) 推荐(0)

Hadoop集群配置（一）

摘要：一、xcall.sh 作用：集群之间批量执行命令（前提：支持 ssh 免密登陆）使用：sh xcall.sh jps #!/bin/bash params=$@ i=307 for (( i=137 ; i <=139 ; i = $i + 1 )) ; do echo hadoop@192.16 阅读全文

posted @ 2021-10-10 21:15 Hubery_Jun 阅读(64) 评论(0) 推荐(0)

Spark 完全分布式搭建

摘要：1. scala 安装 1、准备工作 scala：scala-2.13.6.tar.gz 2、安装 // 将 scala-2.13.6.tar.gz 拷贝到 /home/hadoop/apps 解压 cd /home/hadoop/apps tar -zxvf scala-2.13.6.tar.gz 阅读全文

posted @ 2021-10-10 21:07 Hubery_Jun 阅读(577) 评论(0) 推荐(0)

Scala 基础（一）

摘要：1. Scala 安装 Scala 运行于Java平台（JVM，Java 虚拟机）上，并兼容现有的Java程序，Scala代码可以调用Java方法，访问Java字段，继承Java类和实现Java接口。在面向对象方面，Scala是一门非常纯粹的面向对象编程语言，也就是说，在Scala中，每个值都是对象阅读全文

posted @ 2021-09-14 22:40 Hubery_Jun 阅读(153) 评论(0) 推荐(0)

VMWare 搭建 Hadoop 完全分布式集群（含HBASE）

摘要：使用VMware安装CentOS6.8详细教程 https://blog.csdn.net/weixin_44878850/article/details/89111148 1. 虚拟机安装、克隆 2. 网络配置 # 修改 hostname hostname hadoop1 hostnamectl 阅读全文

posted @ 2021-08-15 15:37 Hubery_Jun 阅读(1034) 评论(0) 推荐(0)

HBASE 过滤器

摘要：1. 过滤器要完成一个过滤的操作，至少需要两个参数。一个是抽象的操作符，Hbase 提供了枚举类型的变量来表示这些抽象的操作符：LESS/LESS_OR_EQUAL/EQUAL/NOT_EUQAL等；另外一个就是具体的比较器（Comparator），代表具体的比较逻辑，如果可以提高字节级的比较、字阅读全文

posted @ 2021-08-15 15:34 Hubery_Jun 阅读(150) 评论(0) 推荐(0)

HBASE API 操作

摘要：1. IDEA 连接 HBASE 1、idea 创建一个 maven 项目 2、添加相关依赖（HBASE 客户端（最主要）、服务端），pom.xml： <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactI 阅读全文

posted @ 2021-08-08 23:18 Hubery_Jun 阅读(750) 评论(0) 推荐(0)

Windows 搭建 hbase 单机版

摘要：1. 配置 hadoop 依赖：JDK Hadoop 下载地址 winutils 1、解压 hadoop 到 F:\software\hadoop-2.7.1，配置文件位置：F:\software\hadoop-2.7.1\etc\hadoop 2、core-site.xml（配置默认hdfs的访问阅读全文

posted @ 2021-05-05 23:05 Hubery_Jun 阅读(1646) 评论(0) 推荐(0)

Hubery_Jun

随笔分类 - 大数据系列

公告