摘要:
适用场景: 贴源层主表历史数据过大,ETL不涉及历史数据对比或聚合 处理流程: 1.确定一个业务主键字段或物理主键字段 2.确定一个可以判断增量数据范围的字段,这取决于具体的业务场景,一般选用记录的创建时间或最后修改时间 3.确定一个分区字段,要求一段增量数据尽可能落在较少的分区,这里选用创建时间或 阅读全文
摘要:
Sqoop 数据迁移工具 sqoop : SQL to hadOOP 两个功能: 1、 RDB 向HDFS导入 2、 HDFS向RDB导入 注:拷贝mysql-connector.jar 和 json.jar 到sqoop/lib目录下 HDFS导入使用 命令很长,一般写成shell脚本。(运行需要 阅读全文
摘要:
HBase通过JavaAPI和HIVE集成 1、Maven导入依赖包: hbase-clinet 版本与server上的hbase相同 2、编写demo 3、发布工程,包括依赖包 4、shell 运行jar 上传jar包到服务器,命令执行 HBase by Phoenix 安装phoenix 每个r 阅读全文
摘要:
HBase —— NoSQL_Not Only SQL NoSQL数据库: 不遵循传统的RDBMS模型 解决数据库的可伸缩性和可用性(多机器) 数据是非关系的(可切分),不使用sql语句 不针对原子性或一致性(定时同步数据)问题 —————————————————————————————— 传统关系 阅读全文
摘要:
HBase ——Shell操作 Q:你觉得HBase是什么? A:一种结构化的分布式数据存储系统,它基于列来存储数据。 基于HBase,可以实现以廉价PC机器集群存储海量数据的分布式数据库的解决方案。 一般用于数据量巨大但查询简单的场景,典型场景包括:账单记录,订单流水,交易记录,数据库的历史记录 阅读全文
摘要:
SCALA高级 类(class) 抽象类(abstract class) 单例对象(object) 特质(trait) 样例类(case class) 类(class) 抽象类(abstract class) 单例对象(object) 特质(trait) 样例类(case class) —————— 阅读全文
摘要:
SCALA基础 面向对象和面向函数的集成 !!!!一切值都是对象,一切函数都是值!!!! 函数时编程,一切都是函数 数学式的语法思维 面向对象和面向函数的集成 !!!!一切值都是对象,一切函数都是值!!!! 函数时编程,一切都是函数 数学式的语法思维 —————————————————————— I 阅读全文
摘要:
Spark基本知识 1、简单架构 (重点) 2、主要数据抽象RDD RDD ——弹性分布式数据集 (重点) RDD特性 (重点) RDD创建 RDD分区器 3、RDD的依赖关系 (重点) 依赖关系对比 Shuffle过程 触发shuffle的算子 4、DAG工作原理 5、算子 (重点) 转换算子(T 阅读全文
摘要:
一、Spark 架构与优化器 1.Spark架构 (重点) 2.Spark优化器 二、Spark+SQL的API (重点) 1.DataSet简介 2.DataFrame简介 3.RDD与DF/DS的创建 4.常用操作 5、类型转换 三、Spark外部数据源操作 (重点) 1.Parquet文件(默 阅读全文
摘要:
Spark+GraphX图 Q:什么是图?图的应用场景 A:图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构,表示为二元组:Gragh=(V,E),V\E分别是顶点和边的集合。图很好的表达了事物间的练习,常用于对事物之间的关系建模。常见应用场景有:在地图应用中寻找 阅读全文