随笔分类 -  大数据系列

摘要:1. 安装 sbt cd /home/hadoop/apps mkdir sbt cd sbt cp ~/Download/sbt-1.3.8.tgz . // 解压 tar -zxvf sbt-1.3.8.tgz // 将 sbt-launch.jar 拷贝到外层目录 cp sbt/bin/sbt 阅读全文
posted @ 2021-12-05 20:41 Hubery_Jun 阅读(943) 评论(0) 推荐(0) 编辑
摘要:Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统: 文件格式:Text 文件、Json 文件、csv 文件、Sequence 文件以及 Object 文件 文件系统:本地文件系统、HDFS、Hbase 以及数据库 1. 读写 text/hdfs 文件 text/hdfs 阅读全文
posted @ 2021-12-05 20:40 Hubery_Jun 阅读(58) 评论(0) 推荐(0) 编辑
摘要:在 Spark 中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function):即最基本的自定义函数,类似 to_char,to_date等 UDAF(User- Defined Aggregation Funcation):用户自定义聚合函数, 阅读全文
posted @ 2021-12-05 20:40 Hubery_Jun 阅读(327) 评论(0) 推荐(0) 编辑
摘要:Spark SQL 可以从多种数据源读取数据,也可以将数据写入多种数据源,如:json、txt、hdfs、parquet、jdbc、hive 等 1. 通用读取与保存 读取 // 方法一,若没有指定文件格式,则默认为 parquet,也可以通过修改 spark.sql.sources.default 阅读全文
posted @ 2021-12-05 20:39 Hubery_Jun 阅读(524) 评论(0) 推荐(0) 编辑
摘要:1. Spark SQL 概述 Spark SQL 是 spark 用来处理结构化数据的模块,它提供了2个编程抽象, 类似 Spark Core 中的 RDD: DataFrame DataSet 1.1 DataFrame 与 RDD 的区别 DataFrame 是一个分布式数据容器,类似于一张二 阅读全文
posted @ 2021-12-05 20:37 Hubery_Jun 阅读(136) 评论(0) 推荐(0) 编辑
摘要:1. 数据导入 1.1 向表中 load 数据 load 可以从本地服务器、hdfs 文件系统加载数据到数据表中: load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [par 阅读全文
posted @ 2021-12-05 20:32 Hubery_Jun 阅读(56) 评论(0) 推荐(0) 编辑
摘要:DDL 操作是用于操作对象和对象的属性,这种对象包括数据库本身,以及数据库对象,像:表、视图等等 1. 数据库 1.1 创建数据库 数据库在 HDFS 上的默认存储路径是 /user/hive/warehouse/*.db CREATE (DATABASE|SCHEMA) [IF NOT EXIST 阅读全文
posted @ 2021-12-05 20:31 Hubery_Jun 阅读(93) 评论(0) 推荐(0) 编辑
摘要:1. 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN boole 阅读全文
posted @ 2021-12-05 20:30 Hubery_Jun 阅读(256) 评论(0) 推荐(0) 编辑
摘要:1. 连接 有三种方式连接 hive: cli:直接输入 bin/hive 就可以进入 cli hiveserver2、beeline webui 1.1 hiveserver2/beeline 1、开启 hiveserver2 服务 // 前台运行,当 beeline 输入命令时,服务端会返回 O 阅读全文
posted @ 2021-12-05 20:29 Hubery_Jun 阅读(1068) 评论(0) 推荐(0) 编辑
摘要:1、下载 这里选择的版本是 0.9.2,下载地址 [hadoop@hadoop1 big_source]$ tar -zxvf apache-tez-0.9.2-bin.tar.gz [hadoop@hadoop1 big_source]$ mv apache-tez-0.9.2-bin tez-0 阅读全文
posted @ 2021-12-05 20:27 Hubery_Jun 阅读(480) 评论(0) 推荐(0) 编辑
摘要:1. hive 安装 hive 下载地址 1、下载解压: // 这里选择的是 1.2.1 的版本 [hadoop@hadoop1 apps]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz // 修改名称为 hive [hadoop@hadoop1 apps]$ mv 阅读全文
posted @ 2021-12-05 20:25 Hubery_Jun 阅读(120) 评论(0) 推荐(0) 编辑
摘要:1. spark 读取 ES import org.apache.spark.sql.SparkSession import org.elasticsearch.spark.rdd.EsSpark object esReadToHdfs { def main(args: Array[String]) 阅读全文
posted @ 2021-11-17 21:55 Hubery_Jun 阅读(779) 评论(0) 推荐(0) 编辑
摘要:1. RDD 的创建 创建 RDD 有三种方式: 从集合中创建 从外部存储创建 从其他 RDD 转换得到新的 RDD 1.1 从集合中创建 1、使用 parallelize 函数: import org.apache.spark.sql.SparkSession object CreateRdd { 阅读全文
posted @ 2021-10-10 22:40 Hubery_Jun 阅读(344) 评论(0) 推荐(0) 编辑
摘要:一、xcall.sh 作用:集群之间批量执行命令(前提:支持 ssh 免密登陆) 使用:sh xcall.sh jps #!/bin/bash params=$@ i=307 for (( i=137 ; i <=139 ; i = $i + 1 )) ; do echo hadoop@192.16 阅读全文
posted @ 2021-10-10 21:15 Hubery_Jun 阅读(37) 评论(0) 推荐(0) 编辑
摘要:1. scala 安装 1、准备工作 scala:scala-2.13.6.tar.gz 2、安装 // 将 scala-2.13.6.tar.gz 拷贝到 /home/hadoop/apps 解压 cd /home/hadoop/apps tar -zxvf scala-2.13.6.tar.gz 阅读全文
posted @ 2021-10-10 21:07 Hubery_Jun 阅读(532) 评论(0) 推荐(0) 编辑
摘要:1. Scala 安装 Scala 运行于Java平台(JVM,Java 虚拟机)上,并兼容现有的Java程序,Scala代码可以调用Java方法,访问Java字段,继承Java类和实现Java接口。在面向对象方面,Scala是一门非常纯粹的面向对象编程语言,也就是说,在Scala中,每个值都是对象 阅读全文
posted @ 2021-09-14 22:40 Hubery_Jun 阅读(119) 评论(0) 推荐(0) 编辑
摘要:使用VMware安装CentOS6.8详细教程 https://blog.csdn.net/weixin_44878850/article/details/89111148 1. 虚拟机安装、克隆 2. 网络配置 # 修改 hostname hostname hadoop1 hostnamectl 阅读全文
posted @ 2021-08-15 15:37 Hubery_Jun 阅读(892) 评论(0) 推荐(0) 编辑
摘要:1. 过滤器 要完成一个过滤的操作,至少需要两个参数。一个是抽象的操作符,Hbase 提供了枚举类型的变量来表示这些抽象的操作符:LESS/LESS_OR_EQUAL/EQUAL/NOT_EUQAL等;另外一个就是具体的比较器(Comparator),代表具体的比较逻辑,如果可以提高字节级的比较、字 阅读全文
posted @ 2021-08-15 15:34 Hubery_Jun 阅读(132) 评论(0) 推荐(0) 编辑
摘要:1. IDEA 连接 HBASE 1、idea 创建一个 maven 项目 2、添加相关依赖(HBASE 客户端(最主要)、服务端),pom.xml: <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactI 阅读全文
posted @ 2021-08-08 23:18 Hubery_Jun 阅读(670) 评论(0) 推荐(0) 编辑
摘要:1. 配置 hadoop 依赖:JDK Hadoop 下载地址 winutils 1、解压 hadoop 到 F:\software\hadoop-2.7.1,配置文件位置:F:\software\hadoop-2.7.1\etc\hadoop 2、core-site.xml(配置默认hdfs的访问 阅读全文
posted @ 2021-05-05 23:05 Hubery_Jun 阅读(1440) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示