随笔分类 -  大数据架构面试题

摘要: 阅读全文
posted @ 2025-01-16 22:10 十一vs十一 阅读(2) 评论(0) 推荐(0) 编辑
摘要:--数仓数据量 --敏捷开发流程 --git版本管理 --发版,提测流程 -- -- 阅读全文
posted @ 2025-01-15 23:03 十一vs十一 阅读(2) 评论(0) 推荐(0) 编辑
摘要:--项目2 -- --最起码需要有三个功能:1标签圈人,2用户画像3.标签查询 --技术选型 kandao --总结 --项目介绍 阅读全文
posted @ 2025-01-15 21:58 十一vs十一 阅读(1) 评论(0) 推荐(0) 编辑
摘要:--拉链表 --增量导入是没有overwrite 且加载的是最新分区的数据 --查看数据倾斜 -- --kafka基准测试 --hbase写入流程 --rowkey设计 --spark-submit提交流程 --yarn提交流程 阅读全文
posted @ 2025-01-13 21:45 十一vs十一 阅读(1) 评论(0) 推荐(0) 编辑
摘要:一、数据质量概述什么是数据质量数据质量差的危害数据质量维度(数据六大评价标准)什么是数据质量测量数据质量测量必须要有目的数据质量测量必须可重复数据质量测量必须可解释什么是数据质量管理二、数据问题根因分析什么是根因分析为什么要进行根因分析产生数据问题的阶段规划设计阶段数据创建阶段数据使用阶段数据老化阶 阅读全文
posted @ 2024-04-25 12:08 十一vs十一 阅读(136) 评论(0) 推荐(0) 编辑
摘要:一、什么是数据模型二、数据模型的类型概念模型概念模型的3个基本要素概念模型的用途逻辑模型逻辑模型的特征逻辑模型的用途物理模型物理模型特征物理模型用途三、什么是数据梳理数据梳理两种流程自上而下梳理数据域梳理数据主题梳理数据实体梳理设计数据模型优缺点自下而上梳理需求分析展现分析逻辑数据建模优缺点四、数据 阅读全文
posted @ 2024-04-25 12:04 十一vs十一 阅读(124) 评论(0) 推荐(0) 编辑
摘要:一、元数据管理概述什么是元数据元数据的3种类型业务元数据技术元数据操作元数据元数据的作用什么是元数据管理元数据管理的目标建立指标解释体系提高数据溯源能力数据质量稽核体系元数据管理的阶段二、元数据管理方法业务目标理解建立企业数据资产目录消除冗余加强数据复用降低因人员流动而导致知识流失的风险提供数据血缘 阅读全文
posted @ 2024-04-25 12:02 十一vs十一 阅读(126) 评论(0) 推荐(0) 编辑
摘要:什么是数据标准 1.数据标准的概念 首先,我们要明白什么是数据标准概念,根据中国通信院的定义:数据标准,是指保障数据的内外部使用与交换的一致性和准确性的规范性约束。 我们可以简单理解,数据标准,就是组织内部各个部门,各个数据相关人,共同使用的一个语言,达成的一个共识。 比如一个部门内部在开会,有人说 阅读全文
posted @ 2024-04-25 11:59 十一vs十一 阅读(80) 评论(0) 推荐(0) 编辑
摘要:什么是数据应用数据应用是通过各种各样的数据分析方式将数据展示出来,给决策者、管理者、运营等人员透传数据价值的工具,帮助决策者、管理者及时调整战略目标、公司目标、业务目标,帮助运营人员更好地实现精细化运营、提升运营效率。 从整个大数据架构来看,它处于整个大数据体系的最上层,也就是数据应用层,以我所参与 阅读全文
posted @ 2024-04-21 01:53 十一vs十一 阅读(54) 评论(0) 推荐(0) 编辑
摘要:今天我们来探讨一下关于数据治理的灵魂三问: 1、数据治理治什么,治的是数据吗? 2、数据治理在哪里治,中台还是后台? 3、数据治理到底怎么治? 一、数据治理 治的是“数据”吗? 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。 阅读全文
posted @ 2024-04-21 01:52 十一vs十一 阅读(160) 评论(0) 推荐(0) 编辑
摘要:🌐数据治理是一个综合性的概念,它是指组织或企业如何管理、维护、保护和优化其数据资产的过程。数据治理包括数据策略、数据管理、数据质量、数据安全、数据架构、数据流程和数据文化等方面。1️⃣数据策略是指制定数据治理的目标、原则和规范,以确保数据的质量和价值;2️⃣数据管理是指对数据进行收集、存储、处理和 阅读全文
posted @ 2024-04-20 14:06 十一vs十一 阅读(45) 评论(0) 推荐(0) 编辑
摘要:数据治理对于企业来说至关重要。它可以帮助企业清晰地了解自己的数据资源、数据流和数据质量。通过有效的数据治理,企业能够更好地管理和控制数据,最大化数据的价值,并在决策过程中减少错误和风险。 数据治理的步骤及原则 数据收集和整合 数据治理的第一步是收集和整合数据。这包括从不同的系统和部门中收集数据,然后 阅读全文
posted @ 2024-04-18 19:05 十一vs十一 阅读(27) 评论(0) 推荐(0) 编辑
摘要:一、什么是ClickHouse? ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量 阅读全文
posted @ 2024-04-02 23:03 十一vs十一 阅读(61) 评论(0) 推荐(0) 编辑
摘要:一.大数据模型 8种常见的大数据分析模型:1、留存分析模型;2、漏斗分析模型;3、全行为路径分析;4、热图分析模型;5、事件分析模型;6、用户分群模型;7、用户分析模型;8、黏性分析模型。 1、留存分析模型 留存分析模型是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少 阅读全文
posted @ 2024-03-31 22:59 十一vs十一 阅读(264) 评论(0) 推荐(0) 编辑
摘要:数据库表分析 一、物流运输管理数据库表 1、揽件表(tbl_collect_package) 2、客户表(tbl_customer) 3、物流系统码表(tbl_codes) 4、快递单据表(tbl_express_bill) 5、快递包裹表(tbl_express_package) ​​​​​​​6 阅读全文
posted @ 2024-03-29 23:17 十一vs十一 阅读(223) 评论(0) 推荐(0) 编辑
摘要:再说ranger之前需要明白一下大数据的安全体系的整体介绍,安全体系其实也就是权限可控,先说说权限:权限管理的目标,绝对不是简单的在技术层面建立起用户,密码和权限点的映射关系这么简单的事,更重要的是要从流程合理性,业务隔离,实施代价,可执行性等方面进行考虑。单方面强调安全,结果往往并不理想。重要的通 阅读全文
posted @ 2024-03-16 01:30 十一vs十一 阅读(145) 评论(0) 推荐(0) 编辑
摘要:1 atlas的使用包含两方面:注入元数据信息到atlas中(本质上是写入元数据到atlas中)注入方式一:通过atlas为数据系统开发好的hook来注入方式二:通过atlas自带的web-ui来认同填写元数据信息注入方式三:通过调用atlas对外暴露的接口来灵活注入修改atlas的元数据的方式方式 阅读全文
posted @ 2024-03-15 23:59 十一vs十一 阅读(15) 评论(0) 推荐(0) 编辑
摘要:Azkaban 是由Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流 内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式, 通 过配置中的 Dependencies 来设置依赖关系。Azkaban 使用job 配置文件建立任务之间的依赖 阅读全文
posted @ 2024-03-15 23:56 十一vs十一 阅读(16) 评论(0) 推荐(0) 编辑
摘要:【这部分Kerberos原理,是最新总结,仅做参考】 Kerberos基本概念: 1. Kerberos中有三种角色: 服务器, 客户端 KDC(认证服务器) 客户端和服务器要信任KDC 并且KDC要存储它们每个人的私有密码所生成的Hash密钥.这些hashkey被存储在account databa 阅读全文
posted @ 2024-03-15 23:51 十一vs十一 阅读(153) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示