2020年5月27日

摘要：问题导读： 1.什么是数据仓库? 2.数据仓库的架构是怎样的？ 3.怎样设计数据仓库的模型？ 1、什么是数据仓库 1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。这个定义的确官方，但是却指出了数据仓库的四个特阅读全文

posted @ 2020-05-27 17:43 大码王阅读(1479) 评论(0) 推荐(1) 编辑

利用行为标签构建用户画像

摘要：问题导读：1、用户画像的核心工作是什么？2、开发用户画像流程有哪些？3、标签类别和标签内容有哪些？4、如何构建用户画像系统？用户画像将产品设计的焦点放在目标用户的动机和行为上，从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表，根据自己的需求设计产品，导致无法抓住实际用户阅读全文

posted @ 2020-05-27 17:28 大码王阅读(3182) 评论(1) 推荐(0) 编辑

SSpark SQL入门到实战之（2）park SQL深度理解篇：模块实现、代码结构及执行流程总览

摘要：问题导读 1、如何理解SQL Core？ 2、RDD支持的第三方格式有哪些？ 3、SQLContext如何对sql执行解析？摘要本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解，无论是从源码实现，还是从Spark SQL实际使用角度阅读全文

posted @ 2020-05-27 16:38 大码王阅读(517) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（1）深度理解篇：模块实现、代码结构及执行流程总览

摘要：问题导读1、什么是Catalyst？2、对Hive的兼容支持将转移到什么上？3、TreeNode具备哪些对节点的操作方法？摘要：本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解，无论是从源码实现，还是从Spark SQL实际使用角度，这阅读全文

posted @ 2020-05-27 16:26 大码王阅读(653) 评论(0) 推荐(0) 编辑

hadoop入门到实战（6）hive常用优化方法总结

摘要：问题导读：1、如何理解列裁剪和分区裁剪？2、sort by代替order by优势在哪里？3、如何调整group by配置？4、如何优化SQL处理join数据倾斜？Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗阅读全文

posted @ 2020-05-27 16:17 大码王阅读(643) 评论(0) 推荐(0) 编辑

Spark源码系列（九）spark源码分析以及优化

摘要：第一章、spark源码分析之RDD四种依赖关系一、RDD四种依赖关系 RDD四种依赖关系，分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示：org.apache.spark.Dep 阅读全文

posted @ 2020-05-27 15:44 大码王阅读(1284) 评论(0) 推荐(0) 编辑

Spark源码系列（八）Spark Streaming实例分析

摘要：问题导读1，如何保存接收到的数据？2，如何处理接收到的数据？3，调用get或Compute方法获得RDD的流程有什么？这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程讲解》。 1、示例代码分析 val ssc = new Stre 阅读全文

posted @ 2020-05-27 15:31 大码王阅读(444) 评论(0) 推荐(0) 编辑

Spark源码系列（七）Spark on yarn具体实现

摘要：问题导读1、yarn提交作业的流程是怎样的？2、run方法在ApplicationMaster里面主要干了什么工作？3、把作业发布到yarn上面去执行，涉及到哪些类？本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现，1.0.0里面已经是一个阅读全文

posted @ 2020-05-27 15:16 大码王阅读(782) 评论(0) 推荐(0) 编辑

Spark原始码系列（六）Shuffle的过程解析

摘要：问题导读： 1、shuffle过程的划分？ 2、shuffle的中间结果如何存储？ 3、shuffle的数据如何拉取过来？ Shuffle过程的划分 Spark的操作模型是基于RDD的，当调用RDD的reduceByKey、groupByKey等类似的操作的时候，就需要有shuffle了。再拿出re 阅读全文

posted @ 2020-05-27 14:51 大码王阅读(624) 评论(1) 推荐(0) 编辑

Spark原始码系列（五）分布式缓存

摘要：问题导读：spark缓存是如何实现的？BlockManager与BlockManagerMaster的关系是什么？这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。 def persist(newLevel: StorageLevel): this.type = { // St 阅读全文

posted @ 2020-05-27 14:36 大码王阅读(629) 评论(1) 推荐(0) 编辑

Spark源码系列（四）图解作业生命周期

摘要：问题导读：1.描述作业生命周期？2.资源是如何调度的？这一章我们探索了Spark作业的运行过程，但是没把整个过程描绘出来，好，跟着我走吧，let you know！我们先回顾一下这个图，Driver Program是我们写的那个程序，它的核心是SparkContext，回想一下，从api的使用角阅读全文

posted @ 2020-05-27 14:25 大码王阅读(467) 评论(0) 推荐(0) 编辑

Spark源码系列（三）作业运行过程

摘要：问题导读：1.如何进行作业划分？2.TaskScheduler如何提交Task？ 1、作业执行上一章讲了RDD的转换，但是没讲作业的运行，它和Driver Program的关系是啥，和RDD的关系是啥？官方给的例子里面，一执行collect方法就能出结果，那我们就从collect开始看吧，进入R 阅读全文

posted @ 2020-05-27 14:21 大码王阅读(666) 评论(0) 推荐(0) 编辑

Spark源码系列（二）RDD详解

摘要：问题导读：1.什么是RDD?2.如何实现RDD转换？ 1、什么是RDD？上一章讲了Spark提交作业的过程，这一章我们要讲RDD。简单的讲，RDD就是Spark的input，知道input是啥吧，就是输入的数据。 RDD的全名是Resilient Distributed Dataset，意思是容错阅读全文

posted @ 2020-05-27 11:43 大码王阅读(939) 评论(0) 推荐(0) 编辑

Spark源码系列（一）spark-submit提交作业过程

摘要：问题导读：1.spark是如何提交作业的？2.Akka框架是如何实现的？3.如何实现调度的？前言折腾了很久，终于开始学习Spark的源码了，第一篇我打算讲一下Spark作业的提交过程。这个是Spark的App运行图，它通过一个Driver来和集群通信，集群负责作业的分配。今天我要讲的是如何创建这阅读全文

posted @ 2020-05-27 11:24 大码王阅读(2236) 评论(0) 推荐(0) 编辑

大数据集群运维（1）Hadoop + Hive + HBase + Kylin伪分布式安装

摘要：问题导读 1. Centos7如何安装配置？ 2. linux网络配置如何进行？ 3. linux环境下java 如何安装？ 4. linux环境下SSH免密码登录如何配置？ 5. linux环境下Hadoop2.7 如何安装？ 6. linux环境下Mysql 如何安装？ 7. linux环境下H 阅读全文

posted @ 2020-05-27 10:11 大码王阅读(436) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之 Flink（8）大数据之Hudi + Kylin的准实时数仓实现

摘要：问题导读：1、数据库、数据仓库如何理解？2、数据湖有什么用途？解决什么问题？3、数据仓库的加载链路如何实现？4、Hudi新一代数据湖项目有什么优势？在近期的 Apache Kylin × Apache Hudi Meetup 直播上，Apache Kylin PMC Chair 史少锋和 Kylig 阅读全文

posted @ 2020-05-27 09:46 大码王阅读(2058) 评论(0) 推荐(0) 编辑

公告