1. 未来 1.1. 运营的优先级和最佳实践与技术可能会改变,但生命周期的主要阶段会在许多年内保持不变 1.2. 随着组织以新的方式利用数据,将需要新的基础、系统和工作流来满足这些需求 1.3. 如果工具变得更容易使用,数据工程师就会向价值链上游移动,专注于更高级别的工作 1.4. 数据工程生命周期 ...
1. 序列化 1.1. 仅仅通过从CSV转换到Parquet序列化,任务性能就提高了上百倍 1.2. 基于行的序列化 1.2.1. 基于行的序列化是按行来组织数据 1.2.2. 对于那些半结构化的数据(支持嵌套和模式变化的数据对象),基于行的序列化需要将每个对象作为一个单元来存储 1.2.3. C ...
写在前面 今天继续学习hive部分的知识。 Hive中如何实现行列转换 一行变多行 可以对表使用 LATERAL VIEW EXPLODE(),也可以直接使用 EXPLAIN() 函数来处理一行数据。 SELECT name, col1 FROM testarray2 LATERAL VIEW EX ...
在大数据和现代 IT 环境中,任务调度与工作负载自动化(WLA)工具是优化资源利用、提升生产效率的核心驱动力。随着企业对数据分析、实时处理和多地域任务调度需求的增加,这些工具成为关键技术。 本文将介绍当前技术发展背景下的Top 10开源任务调度工具,并探讨它们在大数据和工作负载管理中的实际应用。 任 ...
在当今快速发展的技术领域,DevOps、DataOps和MLOps成为了推动企业数字化转型的三大核心实践。它们各自关注不同的领域,但又相互关联,共同推动着软件和数据的高效开发与运营。 DevOps:软件开发的加速器 DevOps是一种将开发(Development)和运营(Operations)结合 ...
1. 安全和隐私 1.1. 安全在数据工程的执行层面至关重要 1.1.1. 安全需要成为一种思想和行动的习惯 1.1.2. 安全是隐私立足的根本 1.2. 数据安全是数据工程师在其工作和数据工程生命周期的每个阶段需要考虑的首要问题 1.2.1. 数据工程师的安全和隐私职责在不同的组织中会有很大的不同 ...
写在前面 今天继续学习hive部分的知识。 Hive 相关知识 hive中不同的 count 区别 select clazz ,count(distinct id) as cnt ,count(*) as cnt ,count(1) as cnt_1 ,count(id) as cnt_id fro ...
01 背景 公司的数据开发平台需要用到DolphinScheduler做任务调度,其中一个场景是:上游任务执行结束后,需要将任务执行结果传递给下游任务。 DolphinScheduler肯定是能实现任务之间的传参的,具体的可以看:DolphinScheduler | 文档中心 (https://do ...
本文整理自白鲸开源联合创始人,Apache DolphinScheduler PMC Chair,Apache Foundation Member 代立冬的演讲。主要介绍了DolphinScheduler及其架构、DolphinScheduler与OceanBase 的联合大数据方案。 Dolphi ...
本文为您介绍向量检索服务在电商智能搜索和偏好推荐、自然语言处理等AI问答系统、图库类网站多模态搜索、视频检索、分子检测与筛选等场景下的应用。 ...
2023年12月,交通运输部印发《关于加快智慧港口和智慧航道建设的意见》,《意见》贯穿了“3条主线”,其中最首要的主线是“数字化”,数字化是基础,必须通过数字赋能建设、生产、运营、管理、服务的全要素、全过程、全场景,将数据作为新的生产要素,方可夯实智慧港口和智慧航道根基。最核心的是“智慧化”,智慧化 ...
1. 机器学习 1.1. 机器学习正在变得普遍 1.1.1. 机器学习、数据科学、数据工程以及机器学习工程的界限正在变得模糊,并且在各个组织内部都形态各异 1.2. 现状 1.2.1. 某些组织中,机器学习工程师负责处理为机器学习应用程序处理收集到的数据,有时甚至会形成独立且平行工作的数据组织来处理 ...
写在前面 今天来学习hive部分的知识。 Hive 相关概念 Hive是什么? Apache Hive 是一个基于 Hadoop 的数据仓库工具,旨在通过 SQL 类似的查询语言(称为 HiveQL)来实现对存储在 HDFS(Hadoop Distributed File System)中的大规模数 ...
写在前面 今天继续学习hadoop部分的知识。 MapReduce 数据切片 InputFormat 接口 InputFormat 是一个抽象类,定义了两个方法: getSplits:负责实现数据切片的方法 createRecordReader:实现数据的 key-value 格式。 FileInp ...
本文介绍了在Apache DolphinScheduler中嵌入Arthas的方法,以实现对接口调用的监控。Arthas是一款强大的 Java诊断工具,能够帮助开发者实时查看应用程序的运行状态、性能瓶颈和方法调用情况。在DolphinScheduler中集成Arthas,可以方便地捕获任务调度时的关 ...
本文介绍了如何使用SeaTunnel将数据从InfluxDB同步到Doris。通过SeaTunnel强大的数据集成功能,用户可以高效地将存储于InfluxDB中的时间序列数据传输至Doris,便于数据的访问与分析。 版本信息: SeaTunnel 2.3.3 InfluxDB 2.7.6 Doris ...
10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。 会上,易知微产品经理林树为大家带来了一款新产品——多层级数据填报与报送平台TableFill。TableFill是一款一站式表单填 ...
1. 合作角色 1.1. 数据分析师 1.2. 数据科学家 1.3. MLOps/机器学习工程师 1.4. 业务侧 1.4.1. 数据或非技术的利益相关者、经理和高管 1.5. 数据工程师更多的是在支持这些利益相关者的工作,不一定对数据的最终使用方式负责 1.6. 数据工程师负责的是产出高质量的数据 ...
10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。 作为大会的重要环节之一,袋鼠云数栈产品经理潮汐带来了题为《指标+AI+BI:构建数据分析新范式》的精彩演讲,深入剖析了当前企业在进 ...
1. 使用场景 1.1. 为分析和BI,也就是统计分析、报表和仪表板提供数据服务 1.1.1. 是数据服务最为常见的目标 1.1.2. 这些概念的提出早于IT和数据库,但是它们对于了解业务、组织和财务流程的利益相关者来说仍然至关重要 1.2. 为机器学习应用程序提供数据服务 1.2.1. 机器学习完 ...