摘要: 很多情况大数据集群需要获取业务数据,用于分析。通常有两种方式: 业务直接或间接写入的方式 业务的关系型数据库同步到大数据集群的方式 第一种可以是在业务中编写代码,将觉得需要发送的数据发送到消息队列,最终落地到大数据集群。 第二种则是通过数据同步的方式,将关系型数据同步到大数据集群,可以是存储在 hd 阅读全文
posted @ 2019-05-20 13:35 大数据工程师8 阅读(3873) 评论(2) 推荐(0) 编辑
摘要: 0.0 前言 本文主要基于最新的Spark 2.1.0版本。阅读本文可以对Spark 2.1.0的学习过程,运行流程,关键组件,原理有所了解。文章有点长,你也可以直接阅读感兴趣的部分,但是还是建议全面了解。 1.0 简介 Spark是Apache软件基金会下的分布式系统开源项目。在官网中这样概况这个 阅读全文
posted @ 2019-05-20 12:00 大数据工程师8 阅读(174) 评论(0) 推荐(0) 编辑