1. 基本信息 数据工程之道:设计和构建健壮的数据系统 [美]乔·里斯(Joe Reis),[美]马特·豪斯利(Matt Housley)著 机械工业出版社,2024年2月出版 1.1. 读薄率 书籍总字数473千字,笔记总字数109584字。 读薄率109584÷473000≈23.17% 1.2 ...
1. 未来 1.1. 运营的优先级和最佳实践与技术可能会改变,但生命周期的主要阶段会在许多年内保持不变 1.2. 随着组织以新的方式利用数据,将需要新的基础、系统和工作流来满足这些需求 1.3. 如果工具变得更容易使用,数据工程师就会向价值链上游移动,专注于更高级别的工作 1.4. 数据工程生命周期 ...
面试:什么是死锁,死锁产生的四个必要条件,如何避免或解决死锁;数据库锁,锁分类,控制事务;MySQL中的死锁现象,MySQL死锁如何解决 ...
前言 我之前在使用达梦数据库的时候,遇到了很多很多的问题,主要对达梦数据库也不是很熟悉,它的语法和我所熟悉的mysql和postgresql有很大的区别。 今天,讲一下我之前遇到的一个问题。这个问题的起因是用达梦数据库迁移工具,将数据库从postgresql迁移到达梦数据库。迁移之后导致的代码报错。 ...
Redis概念和基础 Redis是一种支持key-value等多种数据结构的存储系统。可用于缓存,事件发布或订阅,高速队列等场景。支持网络,提供字符串,哈希,列表,队列,集合结构直接存取,基于内存,可持久化。 什么是Redis Redis是一款内存高速缓存数据库。支持key-value存储系统,支持 ...
程序以 Python 语言开发,可读取、解密、还原微信数据库并帮助用户查看聊天记录,还可以将其聊天记录导出为csv、html等格式用于AI训练,自动回复或备份等等作用。 ...
1. 序列化 1.1. 仅仅通过从CSV转换到Parquet序列化,任务性能就提高了上百倍 1.2. 基于行的序列化 1.2.1. 基于行的序列化是按行来组织数据 1.2.2. 对于那些半结构化的数据(支持嵌套和模式变化的数据对象),基于行的序列化需要将每个对象作为一个单元来存储 1.2.3. C ...
写在前面 今天继续学习hive部分的知识。 Hive中如何实现行列转换 一行变多行 可以对表使用 LATERAL VIEW EXPLODE(),也可以直接使用 EXPLAIN() 函数来处理一行数据。 SELECT name, col1 FROM testarray2 LATERAL VIEW EX ...
[20241107]nocache的编译.txt--//原来的测试环境不存在,需要建立nocache工具了解文件缓存情况,学习OS相关知识。--//实际上linux对这些工具从应用角度讲不重要,如果有用,linux实用程序里面应该包含类似工具。可惜一直不提供。--//一般这类安装,我都会写安装笔记, ...
在B站上看到一个分页视频,老师讲的挺好 ,记录下来。想看原视频的可以去B站 --1.建立Students表CREATE TABLE students ( ID INT PRIMARY KEY IDENTITY(1,2), NAME NVARCHAR(50) NOT NULL, SEX CHAR(6) ...
在大数据和现代 IT 环境中,任务调度与工作负载自动化(WLA)工具是优化资源利用、提升生产效率的核心驱动力。随着企业对数据分析、实时处理和多地域任务调度需求的增加,这些工具成为关键技术。 本文将介绍当前技术发展背景下的Top 10开源任务调度工具,并探讨它们在大数据和工作负载管理中的实际应用。 任 ...
【GreatSQL优化器-01】const_table 一、const_table介绍 GreatSQL的优化器主要用JOIN类来进行处理SQL语句的,JOIN类有以下四个table数量相关的成员变量。其中const_tables是optimize最开始就检查并且标识的,因为这样可以把记录最少的表放 ...
在当今快速发展的技术领域,DevOps、DataOps和MLOps成为了推动企业数字化转型的三大核心实践。它们各自关注不同的领域,但又相互关联,共同推动着软件和数据的高效开发与运营。 DevOps:软件开发的加速器 DevOps是一种将开发(Development)和运营(Operations)结合 ...
11种优化方案供你参考,优化 SQL Server 数据库性能得从多个方面着手,包括硬件配置、数据库结构、查询优化、索引管理、分区分表、并行处理等。通过合理的索引、查询优化、数据分区等技术,可以在数据量增大时保持较好的性能。同时,定期进行数据库维护和清理,保证数据库高效运行。 ...
1. 安全和隐私 1.1. 安全在数据工程的执行层面至关重要 1.1.1. 安全需要成为一种思想和行动的习惯 1.1.2. 安全是隐私立足的根本 1.2. 数据安全是数据工程师在其工作和数据工程生命周期的每个阶段需要考虑的首要问题 1.2.1. 数据工程师的安全和隐私职责在不同的组织中会有很大的不同 ...
前言 我在使用达梦数据库DM时,一开始使用的是达梦数据库自带的连接工具DM管理工具。自带的有它自己的好处,起码对于修改新增字段等是比较兼容的。后面我发现DBeaver也是支持连接达梦数据库的,所以后面用DBeaver也在连接达梦数据库。 我在一开始使用的DM管理工具的时候,遇到了一个奇怪的问题,就是 ...
测试环境说明 环境如下:OS: ubuntu 20PostgreSQL: PostgreSQL 16.4repmgr: repmgr 5.3.3 三台测试环境,均已安装好PostgreSQL 16.4,数据库实例信息如下 IP postgresql实例名 身份192.168.152.100: pos ...
写在前面 今天继续学习hive部分的知识。 Hive 相关知识 hive中不同的 count 区别 select clazz ,count(distinct id) as cnt ,count(*) as cnt ,count(1) as cnt_1 ,count(id) as cnt_id fro ...
01 背景 公司的数据开发平台需要用到DolphinScheduler做任务调度,其中一个场景是:上游任务执行结束后,需要将任务执行结果传递给下游任务。 DolphinScheduler肯定是能实现任务之间的传参的,具体的可以看:DolphinScheduler | 文档中心 (https://do ...
本文整理自白鲸开源联合创始人,Apache DolphinScheduler PMC Chair,Apache Foundation Member 代立冬的演讲。主要介绍了DolphinScheduler及其架构、DolphinScheduler与OceanBase 的联合大数据方案。 Dolphi ...