随笔分类 -  大数据

摘要:数据治理是企业数据建设必不可少的一个环节。 好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭 阅读全文
posted @ 2024-06-22 19:40 五分钟学大数据 阅读(775) 评论(0) 推荐(0) 编辑
摘要:导读 有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理、科学地运营店铺,同时也直接提供分析决策方法供商家使用。并且,每天在跑的底层任务和涉及的数据表已经达到千级别。 面对如此庞大的数据体系,作为测试如何制定质量保障策略呢? 阅读全文
posted @ 2022-06-07 16:43 五分钟学大数据 阅读(890) 评论(0) 推荐(0) 编辑
摘要:Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。 H 阅读全文
posted @ 2022-06-06 11:55 五分钟学大数据 阅读(782) 评论(0) 推荐(0) 编辑
摘要:一、HBase 读优化 1. HBase客户端优化 和大多数系统一样,客户端作为业务读写的入口,姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法,这里一般需要关注四个问题: 1) scan缓存是否设置合理? 优化原理:在解释这个问题之前,首先需要解释什么是scan缓存,通常来 阅读全文
posted @ 2022-05-10 18:51 五分钟学大数据 阅读(1336) 评论(1) 推荐(0) 编辑
摘要:本文目录: 一、数据流向 二、应用示例 三、何为数仓DW 四、为何要分层 五、数据分层 六、数据集市 七、问题总结 导读 数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析,希望对你有帮助。 因文章太长,本文不是完结版 阅读全文
posted @ 2022-04-13 15:03 五分钟学大数据 阅读(1444) 评论(0) 推荐(1) 编辑
摘要:本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解 目录: 一、什么是数据湖 二、数据湖的发展 三、数据湖有哪些优势 四、数据湖应该具备哪些能力 五、数据湖的实现遇到了哪些问题 六、数据湖与数据仓库的区别 七、为什么要做数据湖?区别在于? 八、数据湖挑战 九、湖仓一体 十、目前有哪些开源数据湖组件 阅读全文
posted @ 2022-03-31 21:05 五分钟学大数据 阅读(677) 评论(0) 推荐(0) 编辑
摘要:本文目录: 一、前言 二、SQL的执行计划 explain 的用法explain 的使用场景 案例一:join 语句会过滤 null 的值吗? 案例二:group by 分组语句会进行排序吗? 案例三:哪条sql执行效率高呢? 案例四:定位产生数据倾斜的代码段explain dependency的用 阅读全文
posted @ 2022-03-22 10:16 五分钟学大数据 阅读(843) 评论(0) 推荐(0) 编辑
摘要:​ 本文目录: 一、前言 二、概念解析 数据仓库 数据湖 数据中台 三、具体区别 数据仓库 VS 数据湖 数据仓库 VS 数据中台 总结 四、湖仓一体 目前数据存储方案 Data Lakehouse(湖仓一体) 一、前言 数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷 阅读全文
posted @ 2022-02-22 09:36 五分钟学大数据 阅读(1489) 评论(0) 推荐(0) 编辑
摘要:此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待 复习大数据面试题,看这一套就够了! 本文目录: 一、Hadoop 二、Hive 三、Spark 四、Kafka 五、HBase 六、Flink 七、数仓业务方面 八、算法 本文因内 阅读全文
posted @ 2022-02-16 14:46 五分钟学大数据 阅读(3663) 评论(0) 推荐(1) 编辑
摘要:​ 数据中台到底是什么,几年过去了,也一直众说纷纭。 笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。 数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业 务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋 阅读全文
posted @ 2022-01-11 09:35 五分钟学大数据 阅读(1411) 评论(0) 推荐(1) 编辑
摘要:Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁) 避免数据倾斜(例如加参数、Key打散) 避免全表扫描(例如on添加加上分区等) 减少job数(例如相同的on条件的join放在一起 阅读全文
posted @ 2021-12-28 09:11 五分钟学大数据 阅读(3256) 评论(0) 推荐(0) 编辑
摘要:本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦! 注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。 阅读全文
posted @ 2021-12-23 16:09 五分钟学大数据 阅读(1164) 评论(0) 推荐(0) 编辑
摘要:本文大纲: 因内容较多,带目录的PDF查看是比较方便的: 数仓建设保姆级教程PDF文档 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的 阅读全文
posted @ 2021-12-14 11:28 五分钟学大数据 阅读(4884) 评论(0) 推荐(0) 编辑
摘要:本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表:show tables like '*name*'; 查看表结构信息:desc table_nam 阅读全文
posted @ 2021-11-30 14:40 五分钟学大数据 阅读(1415) 评论(0) 推荐(1) 编辑
摘要:面试吹牛之前先打个草稿! 各位面试官好! 我叫 xxx,毕业于 xxx,之前在 xxx 公司待了 1 年多,期间⼀直从事的是 IT 行业,刚开始的时候做的是 Java 开发后来转岗到大数据方向做大数据开发; 刚转行到大数据开发的时候开始比较困难的,大数据并不像 Java 那样⼀套框架基本可以搞定所有 阅读全文
posted @ 2021-11-24 11:39 五分钟学大数据 阅读(794) 评论(0) 推荐(0) 编辑
摘要:本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等! 目录: 一、数据模型架构原则 数仓分层原则主题域划分原则数据模型设计原则 二、数仓公共开发规范 层次调用规范数据类型规范数据冗余规范NULL字段处理规范指标口径规范数据表处 阅读全文
posted @ 2021-11-11 12:22 五分钟学大数据 阅读(9017) 评论(1) 推荐(4) 编辑
摘要:Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将 阅读全文
posted @ 2021-11-05 13:53 五分钟学大数据 阅读(3524) 评论(0) 推荐(0) 编辑
摘要:1. Flink 程序结构 Flink 程序的基本构建块是流和转换(请注意,Flink 的 DataSet API 中使用的 DataSet 也是内部流 )。从概念上讲,流是(可能永无止境的)数据记录流,而转换是将一个或多个流作为一个或多个流的操作。输入,并产生一个或多个输出流。 Flink 应用程 阅读全文
posted @ 2021-11-04 13:58 五分钟学大数据 阅读(846) 评论(0) 推荐(0) 编辑
摘要:本文目录: 一、消息队列 Apache Pulsar Pulsar 与 Kafka 对比 二、Kafka基础 三、Kafka架构及组件 四、Kafka集群操作 五、Kafka的JavaAPI操作 六、Kafka中的数据不丢失机制 七、Kafka配置文件说明 八、CAP理论 九、Kafka中的CAP机 阅读全文
posted @ 2021-10-27 14:15 五分钟学大数据 阅读(827) 评论(0) 推荐(1) 编辑
摘要:Hadoop 涉及的知识点如下图所示,本文将逐一讲解: 本文档参考了关于 Hadoop 的官网及其他众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图片及黑白图片进行重新绘制成了高清彩图。 目前企业应用较多的是Hadoop2.x,所以本文是以Hadoop2.x为主,对于Hadoop3. 阅读全文
posted @ 2021-10-25 11:14 五分钟学大数据 阅读(347) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示