2021 年 8月 31 日随笔档案 - tonggang_bigdata

2021年8月31日

摘要： 1、上传解压，配置环境变量配置bin目录2、修改配置文件 conf mv spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077 export SPARK_ 阅读全文

posted @ 2021-08-31 17:13 tonggang_bigdata 阅读(68) 评论(0) 推荐(1) 编辑

HBASE过滤器

摘要： HBase过滤器作用过滤器的作用是在服务端判断数据是否满足条件，然后只将满足条件的数据返回给客户端过滤器的类型很多，但是可以分为两大类：比较过滤器：可应用于rowkey、列簇、列、列值过滤器专用过滤器：只能适用于特定的过滤器比较过滤器比较运算符 LESS < LESS_OR_EQUAL 阅读全文

posted @ 2021-08-31 17:12 tonggang_bigdata 阅读(70) 评论(0) 推荐(0) 编辑

HBASE搭建

摘要： 1、启动hadoop start-all.sh 验证http://master:50070 2、启动zookeeper需要在在三台中分别启动zkServer.sh startzkServer.sh status 搭建hbase 1、上传解压配置环境变量 tar -xvf hbase-1.4.6-bi 阅读全文

posted @ 2021-08-31 17:11 tonggang_bigdata 阅读(134) 评论(0) 推荐(0) 编辑

hive数据倾斜

摘要：第五天笔记 Hive With as 用法 // 之前的写法 select t.id ,t.name ,t.clazz ,t.score_id ,t.score ,c.subject_name from( select a.id ,a.name ,a.clazz ,b.score_id ,b.sco 阅读全文

posted @ 2021-08-31 17:09 tonggang_bigdata 阅读(46) 评论(0) 推荐(0) 编辑

Hive常用函数

摘要： Hive 常用函数关系运算 // 等值比较 = == <=> // 不等值比较 != <> // 区间比较： select * from default.students where id between 1500100001 and 1500100010; // 空值/非空值判断：is null 阅读全文

posted @ 2021-08-31 17:08 tonggang_bigdata 阅读(109) 评论(0) 推荐(0) 编辑

SQL练习

摘要： SQL练习： 1、count(*)、count(1) 、count('字段名') 区别 2、HQL 执行优先级： from、where、 group by 、having、order by、join、select 、limit 3、where 条件里不支持子查询，实际上是支持 in、not in、e 阅读全文

posted @ 2021-08-31 17:07 tonggang_bigdata 阅读(146) 评论(0) 推荐(0) 编辑

hive分区分桶内部表外部表

摘要： Hive建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名，字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT table_com 阅读全文

posted @ 2021-08-31 17:06 tonggang_bigdata 阅读(113) 评论(0) 推荐(0) 编辑

mysql总结

摘要： SQL的生命周期应用服务器与数据库服务器建立一个连接数据库进程拿到请求sql 解析并生成执行计划，执行读取数据到内存并进行逻辑处理通过步骤一的连接，发送结果到客户端关掉连接，释放资源 SQL 约束 NOT NULL: 用于控制字段的内容一定不能为空（NULL）。 UNIQUE: 控件字段内阅读全文

posted @ 2021-08-31 16:58 tonggang_bigdata 阅读(43) 评论(0) 推荐(0) 编辑

spark解决数据倾斜

摘要：一、使用hive ETL预处理数据适用场景导致数据倾斜的是Hive表，hive表中的数据不均匀，业务场景需要频繁使用spark对hive表执行操作实现思路先评估是否可以通过hive预处理预处理（按照可以进行聚合，或者预先和其他表进行join）--> spark所针对数据源就是预处理之后表，阅读全文

posted @ 2021-08-31 16:57 tonggang_bigdata 阅读(179) 评论(0) 推荐(0) 编辑

sparkstreaming总结

摘要：实时计算 spark是微批处理，每隔一段时间处理一次 flink 实时处理，每一条数据都会处理将接收过来的数据，封装成一个rdd，执行rdd的计算有状态算子 updataStateBykey 需要开启checkpoint,(需要保存之间计算的结果) reduceBykeyAndWindow 统阅读全文

posted @ 2021-08-31 16:56 tonggang_bigdata 阅读(273) 评论(0) 推荐(0) 编辑

Scala总结

摘要： scala和java的区别 1、面向函数编程 2、都是基于jvm的编程语言 3、scala和java可以相互兼容，语法不兼容变量 val 常量，不能再指向其他对象 var 变量，只有在必须的情况下使用 String、基本数据类型和java中一样函数 scala可以在任何位置定义函数类中定义函阅读全文

posted @ 2021-08-31 16:54 tonggang_bigdata 阅读(42) 评论(0) 推荐(0) 编辑

hive总结

摘要： hive加载数据 1、使用 hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下' 2、使用 load data inpath hive shell命令行// 将HDFS上的/input1目录下面的数据移动至 students表对应的HDFS目录下，注意是移动、移动、移动l 阅读全文

posted @ 2021-08-31 16:53 tonggang_bigdata 阅读(90) 评论(0) 推荐(0) 编辑

HBASE

摘要：架构 Client 1、HBase shell 2、Java API HMaster 1、负责表的增删改请求 2、负责给RegionServer分配region 3、负责RegionServer的负载均衡 4、负责发现失效的Region并重新分配 5、负责无用的Region的垃圾回收 RegionS 阅读全文

posted @ 2021-08-31 16:52 tonggang_bigdata 阅读(66) 评论(0) 推荐(0) 编辑

flume

摘要：架构 taildir source （1）断点续传、多目录（2）哪个flume版本产生的？Apache1.7、CDH1.6 （3）没有断点续传功能时怎么做的？自定义source，保存offset （4）taildir挂了怎么办？重启不会丢数：断点续传容易产生重复数据：（5）怎么处理重复数阅读全文

posted @ 2021-08-31 16:46 tonggang_bigdata 阅读(106) 评论(0) 推荐(0) 编辑

数据仓库定义

摘要：数据仓库：官方定义：就是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合，用于对管理决策过程的支持。自己：就是整合多个数据源的历史数据进行细粒度、多维的分析，帮助企业管理者做出决策或商业报表。数据仓库分为：ODS层，一般就是原始数据，不做任何修改 Dwd层：对ODS层数据进行空值去阅读全文

posted @ 2021-08-31 16:44 tonggang_bigdata 阅读(1010) 评论(0) 推荐(0) 编辑

sample

摘要： package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo05Sample { def main(args: Array[String]): 阅读全文

posted @ 2021-08-31 16:29 tonggang_bigdata 阅读(299) 评论(0) 推荐(0) 编辑

xiguabigdata

公告