随笔分类 -  大数据

摘要:数据仓库理论(一) 一 数据仓库的概念 1 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成 阅读全文
posted @ 2021-03-16 11:12 Garrett_Wale 阅读(284) 评论(0) 推荐(0) 编辑
摘要:Spark的五种JOIN策略解析 JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容: 影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spa 阅读全文
posted @ 2021-03-10 11:26 Garrett_Wale 阅读(532) 评论(0) 推荐(0) 编辑
摘要:处理海量数据问题的四板斧 分治 基本上处理海量数据的问题,分治思想都是能够解决的,只不过一般情况下不会是最优方案,但可以作为一个baseline,可以逐渐优化子问题来达到一个较优解。传统的归并排序就是分治思想,涉及到大量无法加载到内存的文件、排序等问题都可以用这个方法解决。 适用场景:数据量大无法加 阅读全文
posted @ 2021-03-04 09:26 Garrett_Wale 阅读(9542) 评论(0) 推荐(4) 编辑
摘要:面试题 一、Hadoop 1.Hadoop面试题总结(一) 2.Hadoop面试题总结(二)——HDFS 3.Hadoop面试题总结(三)——MapReduce 4.Hadoop面试题总结(四)——YARN 5.Hadoop面试题总结(五)——优化问题 二、Zookeeper 1.Zookeeper 阅读全文
posted @ 2021-02-28 20:58 Garrett_Wale 阅读(223) 评论(0) 推荐(0) 编辑
摘要:一、消息模型 点对点 消息生产者向消息队列中发送了一个消息之后,只能被一个消费者消费一次。 发布/订阅 消息生产者向频道发送一个消息之后,多个消费者可以从该频道订阅到这条消息并消费。 发布与订阅模式和观察者模式有以下不同: 观察者模式中,观察者和主题都知道对方的存在;而在发布与订阅模式中,生产者与消 阅读全文
posted @ 2021-02-23 17:30 Garrett_Wale 阅读(111) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示