摘要: 1、上传解压,配置环境变量 配置bin目录2、修改配置文件 conf mv spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077 export SPARK_ 阅读全文
posted @ 2021-08-31 17:13 tonggang_bigdata 阅读(68) 评论(0) 推荐(1) 编辑
摘要: HBase过滤器 作用 过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端 过滤器的类型很多,但是可以分为两大类: 比较过滤器:可应用于rowkey、列簇、列、列值过滤器 专用过滤器:只能适用于特定的过滤器 比较过滤器 比较运算符 LESS < LESS_OR_EQUAL 阅读全文
posted @ 2021-08-31 17:12 tonggang_bigdata 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 1、启动hadoop start-all.sh 验证http://master:50070 2、启动zookeeper需要在在三台中分别启动zkServer.sh startzkServer.sh status 搭建hbase 1、上传解压配置环境变量 tar -xvf hbase-1.4.6-bi 阅读全文
posted @ 2021-08-31 17:11 tonggang_bigdata 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 第五天笔记 Hive With as 用法 // 之前的写法 select t.id ,t.name ,t.clazz ,t.score_id ,t.score ,c.subject_name from( select a.id ,a.name ,a.clazz ,b.score_id ,b.sco 阅读全文
posted @ 2021-08-31 17:09 tonggang_bigdata 阅读(41) 评论(0) 推荐(0) 编辑
摘要: Hive 常用函数 关系运算 // 等值比较 = == <=> // 不等值比较 != <> // 区间比较: select * from default.students where id between 1500100001 and 1500100010; // 空值/非空值判断:is null 阅读全文
posted @ 2021-08-31 17:08 tonggang_bigdata 阅读(101) 评论(0) 推荐(0) 编辑
摘要: SQL练习: 1、count(*)、count(1) 、count('字段名') 区别 2、HQL 执行优先级: from、where、 group by 、having、order by、join、select 、limit 3、where 条件里不支持子查询,实际上是支持 in、not in、e 阅读全文
posted @ 2021-08-31 17:07 tonggang_bigdata 阅读(143) 评论(0) 推荐(0) 编辑
摘要: Hive建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名,字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT table_com 阅读全文
posted @ 2021-08-31 17:06 tonggang_bigdata 阅读(103) 评论(0) 推荐(0) 编辑
摘要: SQL的生命周期 应用服务器与数据库服务器建立一个连接 数据库进程拿到请求sql 解析并生成执行计划,执行 读取数据到内存并进行逻辑处理 通过步骤一的连接,发送结果到客户端 关掉连接,释放资源 SQL 约束 NOT NULL: 用于控制字段的内容一定不能为空(NULL)。 UNIQUE: 控件字段内 阅读全文
posted @ 2021-08-31 16:58 tonggang_bigdata 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 一、使用hive ETL预处理数据 适用场景 导致数据倾斜的是Hive表,hive表中的数据不均匀,业务场景需要频繁使用spark对hive表执行操作 实现思路 先评估是否可以通过hive预处理 预处理(按照可以进行聚合,或者预先和其他表进行join)--> spark所针对数据源就是预处理之后表, 阅读全文
posted @ 2021-08-31 16:57 tonggang_bigdata 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 实时计算 spark是微批处理, 每隔一段时间处理一次 flink 实时处理,每一条数据都会处理 将接收过来的数据,封装成一个rdd,执行rdd的计算 有状态算子 updataStateBykey 需要开启checkpoint,(需要保存之间计算的结果) reduceBykeyAndWindow 统 阅读全文
posted @ 2021-08-31 16:56 tonggang_bigdata 阅读(258) 评论(0) 推荐(0) 编辑
摘要: scala和java的区别 1、面向函数编程 2、都是基于jvm的编程语言 3、scala和java可以相互兼容,语法不兼容 变量 val 常量,不能再指向其他对象 var 变量,只有在必须的情况下使用 String、基本数据类型 和java中一样 函数 scala可以在任何位置定义函数 类中定义函 阅读全文
posted @ 2021-08-31 16:54 tonggang_bigdata 阅读(40) 评论(0) 推荐(0) 编辑
摘要: hive加载数据 1、使用 hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下' 2、使用 load data inpath hive shell命令行// 将HDFS上的/input1目录下面的数据 移动至 students表对应的HDFS目录下,注意是 移动、移动、移动l 阅读全文
posted @ 2021-08-31 16:53 tonggang_bigdata 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 架构 Client 1、HBase shell 2、Java API HMaster 1、负责表的增删改请求 2、负责给RegionServer分配region 3、负责RegionServer的负载均衡 4、负责发现失效的Region并重新分配 5、负责无用的Region的垃圾回收 RegionS 阅读全文
posted @ 2021-08-31 16:52 tonggang_bigdata 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 架构 taildir source (1)断点续传、多目录 (2)哪个flume版本产生的?Apache1.7、CDH1.6 (3)没有断点续传功能时怎么做的? 自定义source,保存offset (4)taildir挂了怎么办? 重启 不会丢数:断点续传 容易产生重复数据: (5)怎么处理重复数 阅读全文
posted @ 2021-08-31 16:46 tonggang_bigdata 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 数据仓库:官方定义:就是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合,用于对管理决策过程的支持。 自己:就是整合多个数据源的历史数据进行细粒度、多维的分析,帮助企业管理者做出决策或商业报表。 数据仓库分为:ODS层,一般就是原始数据,不做任何修改 Dwd层:对ODS层数据进行空值去 阅读全文
posted @ 2021-08-31 16:44 tonggang_bigdata 阅读(951) 评论(0) 推荐(0) 编辑
摘要: package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo05Sample { def main(args: Array[String]): 阅读全文
posted @ 2021-08-31 16:29 tonggang_bigdata 阅读(260) 评论(0) 推荐(0) 编辑