WhoYoung

2021年2月23日

摘要：适用场景：贴源层主表历史数据过大，ETL不涉及历史数据对比或聚合处理流程： 1.确定一个业务主键字段或物理主键字段 2.确定一个可以判断增量数据范围的字段，这取决于具体的业务场景，一般选用记录的创建时间或最后修改时间 3.确定一个分区字段，要求一段增量数据尽可能落在较少的分区，这里选用创建时间或阅读全文

posted @ 2021-02-23 23:02 WhoYoung 阅读(1048) 评论(0) 推荐(0)

2019年8月28日

Sqoop 数据迁移工具

摘要： Sqoop 数据迁移工具 sqoop : SQL to hadOOP 两个功能: 1、 RDB 向HDFS导入 2、 HDFS向RDB导入注：拷贝mysql-connector.jar 和 json.jar 到sqoop/lib目录下 HDFS导入使用命令很长，一般写成shell脚本。（运行需要阅读全文

posted @ 2019-08-28 15:44 WhoYoung 阅读(419) 评论(0) 推荐(0)

HBase的JavaAPI

摘要： HBase通过JavaAPI和HIVE集成 1、Maven导入依赖包： hbase-clinet 版本与server上的hbase相同 2、编写demo 3、发布工程，包括依赖包 4、shell 运行jar 上传jar包到服务器，命令执行 HBase by Phoenix 安装phoenix 每个r 阅读全文

posted @ 2019-08-28 15:43 WhoYoung 阅读(1230) 评论(0) 推荐(0)

Hbase ——Not only SQL

摘要： HBase —— NoSQL_Not Only SQL NoSQL数据库：不遵循传统的RDBMS模型解决数据库的可伸缩性和可用性（多机器）数据是非关系的（可切分），不使用sql语句不针对原子性或一致性（定时同步数据）问题 —————————————————————————————— 传统关系阅读全文

posted @ 2019-08-28 15:42 WhoYoung 阅读(286) 评论(0) 推荐(0)

HBase ——Shell操作

摘要： HBase ——Shell操作 Q：你觉得HBase是什么？ A：一种结构化的分布式数据存储系统，它基于列来存储数据。基于HBase，可以实现以廉价PC机器集群存储海量数据的分布式数据库的解决方案。一般用于数据量巨大但查询简单的场景，典型场景包括：账单记录，订单流水，交易记录，数据库的历史记录阅读全文

posted @ 2019-08-28 15:42 WhoYoung 阅读(331) 评论(0) 推荐(0)

SCALA基础

摘要： SCALA基础面向对象和面向函数的集成 !!!!一切值都是对象，一切函数都是值!!!! 函数时编程，一切都是函数数学式的语法思维面向对象和面向函数的集成 !!!!一切值都是对象，一切函数都是值!!!! 函数时编程，一切都是函数数学式的语法思维 —————————————————————— I 阅读全文

posted @ 2019-08-28 15:39 WhoYoung 阅读(187) 评论(0) 推荐(0)

Spark高级

摘要： SCALA高级类（class）抽象类（abstract class）单例对象（object）特质（trait）样例类（case class）类（class）抽象类（abstract class）单例对象（object）特质（trait）样例类（case class） —————— 阅读全文

posted @ 2019-08-28 15:39 WhoYoung 阅读(612) 评论(0) 推荐(0)

Spark基础

摘要： Spark基本知识 1、简单架构（重点） 2、主要数据抽象RDD RDD ——弹性分布式数据集（重点） RDD特性（重点） RDD创建 RDD分区器 3、RDD的依赖关系（重点）依赖关系对比 Shuffle过程触发shuffle的算子 4、DAG工作原理 5、算子 (重点) 转换算子(T 阅读全文

posted @ 2019-08-28 15:33 WhoYoung 阅读(310) 评论(0) 推荐(0)

Spark集成

摘要：一、Spark 架构与优化器 1.Spark架构（重点） 2.Spark优化器二、Spark+SQL的API （重点） 1.DataSet简介 2.DataFrame简介 3.RDD与DF/DS的创建 4.常用操作 5、类型转换三、Spark外部数据源操作（重点） 1.Parquet文件(默阅读全文

posted @ 2019-08-28 15:25 WhoYoung 阅读(560) 评论(0) 推荐(0)

Spark + GraphX + Pregel

摘要： Spark+GraphX图 Q：什么是图？图的应用场景 A：图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种网状数据结构，表示为二元组：Gragh=（V，E），V\E分别是顶点和边的集合。图很好的表达了事物间的练习，常用于对事物之间的关系建模。常见应用场景有：在地图应用中寻找阅读全文

posted @ 2019-08-28 15:20 WhoYoung 阅读(615) 评论(0) 推荐(0)

公告