摘要:
一、使用hive ETL预处理数据 适用场景 导致数据倾斜的是Hive表,hive表中的数据不均匀,业务场景需要频繁使用spark对hive表执行操作 实现思路 先评估是否可以通过hive预处理 预处理(按照可以进行聚合,或者预先和其他表进行join)--> spark所针对数据源就是预处理之后表, 阅读全文
摘要:
实时计算 spark是微批处理, 每隔一段时间处理一次 flink 实时处理,每一条数据都会处理 将接收过来的数据,封装成一个rdd,执行rdd的计算 有状态算子 updataStateBykey 需要开启checkpoint,(需要保存之间计算的结果) reduceBykeyAndWindow 统 阅读全文
摘要:
scala和java的区别 1、面向函数编程 2、都是基于jvm的编程语言 3、scala和java可以相互兼容,语法不兼容 变量 val 常量,不能再指向其他对象 var 变量,只有在必须的情况下使用 String、基本数据类型 和java中一样 函数 scala可以在任何位置定义函数 类中定义函 阅读全文
摘要:
hive加载数据 1、使用 hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下' 2、使用 load data inpath hive shell命令行// 将HDFS上的/input1目录下面的数据 移动至 students表对应的HDFS目录下,注意是 移动、移动、移动l 阅读全文
摘要:
架构 Client 1、HBase shell 2、Java API HMaster 1、负责表的增删改请求 2、负责给RegionServer分配region 3、负责RegionServer的负载均衡 4、负责发现失效的Region并重新分配 5、负责无用的Region的垃圾回收 RegionS 阅读全文
摘要:
架构 taildir source (1)断点续传、多目录 (2)哪个flume版本产生的?Apache1.7、CDH1.6 (3)没有断点续传功能时怎么做的? 自定义source,保存offset (4)taildir挂了怎么办? 重启 不会丢数:断点续传 容易产生重复数据: (5)怎么处理重复数 阅读全文
摘要:
数据仓库:官方定义:就是一个面向主题、集成的、随时间变化的、信息本身相对稳定的数据集合,用于对管理决策过程的支持。 自己:就是整合多个数据源的历史数据进行细粒度、多维的分析,帮助企业管理者做出决策或商业报表。 数据仓库分为:ODS层,一般就是原始数据,不做任何修改 Dwd层:对ODS层数据进行空值去 阅读全文
摘要:
package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo05Sample { def main(args: Array[String]): 阅读全文