tonggang_bigdata - 博客园

2021年8月31日

摘要：一、使用hive ETL预处理数据适用场景导致数据倾斜的是Hive表，hive表中的数据不均匀，业务场景需要频繁使用spark对hive表执行操作实现思路先评估是否可以通过hive预处理预处理（按照可以进行聚合，或者预先和其他表进行join）--> spark所针对数据源就是预处理之后表，阅读全文

posted @ 2021-08-31 16:57 tonggang_bigdata 阅读(178) 评论(0) 推荐(0) 编辑

sparkstreaming总结

摘要：实时计算 spark是微批处理，每隔一段时间处理一次 flink 实时处理，每一条数据都会处理将接收过来的数据，封装成一个rdd，执行rdd的计算有状态算子 updataStateBykey 需要开启checkpoint,(需要保存之间计算的结果) reduceBykeyAndWindow 统阅读全文

posted @ 2021-08-31 16:56 tonggang_bigdata 阅读(269) 评论(0) 推荐(0) 编辑

Scala总结

摘要： scala和java的区别 1、面向函数编程 2、都是基于jvm的编程语言 3、scala和java可以相互兼容，语法不兼容变量 val 常量，不能再指向其他对象 var 变量，只有在必须的情况下使用 String、基本数据类型和java中一样函数 scala可以在任何位置定义函数类中定义函阅读全文

posted @ 2021-08-31 16:54 tonggang_bigdata 阅读(42) 评论(0) 推荐(0) 编辑

hive总结

摘要： hive加载数据 1、使用 hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下' 2、使用 load data inpath hive shell命令行// 将HDFS上的/input1目录下面的数据移动至 students表对应的HDFS目录下，注意是移动、移动、移动l 阅读全文

posted @ 2021-08-31 16:53 tonggang_bigdata 阅读(90) 评论(0) 推荐(0) 编辑

HBASE

摘要：架构 Client 1、HBase shell 2、Java API HMaster 1、负责表的增删改请求 2、负责给RegionServer分配region 3、负责RegionServer的负载均衡 4、负责发现失效的Region并重新分配 5、负责无用的Region的垃圾回收 RegionS 阅读全文

posted @ 2021-08-31 16:52 tonggang_bigdata 阅读(63) 评论(0) 推荐(0) 编辑

flume

摘要：架构 taildir source （1）断点续传、多目录（2）哪个flume版本产生的？Apache1.7、CDH1.6 （3）没有断点续传功能时怎么做的？自定义source，保存offset （4）taildir挂了怎么办？重启不会丢数：断点续传容易产生重复数据：（5）怎么处理重复数阅读全文

posted @ 2021-08-31 16:46 tonggang_bigdata 阅读(102) 评论(0) 推荐(0) 编辑

数据仓库定义

摘要：数据仓库：官方定义：就是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合，用于对管理决策过程的支持。自己：就是整合多个数据源的历史数据进行细粒度、多维的分析，帮助企业管理者做出决策或商业报表。数据仓库分为：ODS层，一般就是原始数据，不做任何修改 Dwd层：对ODS层数据进行空值去阅读全文

posted @ 2021-08-31 16:44 tonggang_bigdata 阅读(992) 评论(0) 推荐(0) 编辑

sample

摘要： package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo05Sample { def main(args: Array[String]): 阅读全文

posted @ 2021-08-31 16:29 tonggang_bigdata 阅读(288) 评论(0) 推荐(0) 编辑

2021年8月22日

Hive面试题

摘要： Hive面试题整理（一） 1、Hive表关联查询，如何解决数据倾斜的问题？（☆☆☆☆☆） 1）倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。（1）key分布不均匀; （2）业务阅读全文

posted @ 2021-08-22 20:31 tonggang_bigdata 阅读(546) 评论(0) 推荐(0) 编辑

FlatMap

摘要： package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo04FlatMap { def main(args: Array[String]): 阅读全文

posted @ 2021-08-22 20:18 tonggang_bigdata 阅读(83) 评论(0) 推荐(0) 编辑

xiguabigdata

公告