在数字化转型的浪潮下,银行业对数据的依赖日益加深。为提升数据管理和应用水平,西南某城商行于2022年启动了数据中台建设,采用创新技术手段优化其数据服务体系。 本文将深入探讨该行如何借助Whalestudio平台构建数据中台,以及在实际应用中取得的显著成效。 从需求到选择:数据中台系统的选型过程 该银 ...
写了一些使用sparksql以及spark机器学习来进行数据分析的东西,希望能给大家做一些参考 项目需求:对某大型商超客户采购数据集进行数据分析 数据来源:https://www.heywhale.com/mw/dataset/656069b19a74cc18269207c4/content 首先使 ...
本文主要介绍带关键词感知能力的向量检索服务的优势、应用示例以及Sparse Vector生成工具。 背景介绍 关键词检索及其局限 在信息检索领域,"传统"方式是通过关键词进行信息检索,其大致过程为: 对原始语料(如网页)进行关键词抽取。 建立关键词和原始语料的映射关系,常见的方法有倒排索引、TF-I ...
1. 同步数据 1.1. 不同的数据仓库和数据湖通过数据集成层来进行桥接 1.2. AWS Glue、Fivetran和Matillion等数据集成工具从不同来源收集数据,统一这些数据,并将其转换为上游来源 1.3. 数据集成的一个典型用例是收集数据湖的数据并以结构化格式将其加载到数据仓库中 1.4 ...
1. 组装 1.1. 对于任何数据从业者来说,解决生产过程中的数据质量问题都是一项关键技能,但只要有适当的系统和流程,就基本可以防止数据宕机 1.2. 数据在管道的任何阶段都可能会受到操作数量、编程甚至数据相关性的影响,也许只需一次模式更改或代码推送,就会让下游报告处于混乱状 1.3. 元数据驱动的 ...
1. 为什么数据质量值得关注 1.1. 数据是你的CEO的首要任务 1.2. 下游数据消费者(包括产品分析师、营销领导者和销售团队)则依赖于数据驱动的工具 1.3. 数据宕机 1.3.1. 指数据丢失、不准确或出现错误的情况,它表现为过时的仪表板、不准确的报告,甚至是糟糕的决策 1.3.2. 数据宕 ...
1. 基本信息 数据工程之道:设计和构建健壮的数据系统 [美]乔·里斯(Joe Reis),[美]马特·豪斯利(Matt Housley)著 机械工业出版社,2024年2月出版 1.1. 读薄率 书籍总字数473千字,笔记总字数109584字。 读薄率109584÷473000≈23.17% 1.2 ...
1. 未来 1.1. 运营的优先级和最佳实践与技术可能会改变,但生命周期的主要阶段会在许多年内保持不变 1.2. 随着组织以新的方式利用数据,将需要新的基础、系统和工作流来满足这些需求 1.3. 如果工具变得更容易使用,数据工程师就会向价值链上游移动,专注于更高级别的工作 1.4. 数据工程生命周期 ...
1. 序列化 1.1. 仅仅通过从CSV转换到Parquet序列化,任务性能就提高了上百倍 1.2. 基于行的序列化 1.2.1. 基于行的序列化是按行来组织数据 1.2.2. 对于那些半结构化的数据(支持嵌套和模式变化的数据对象),基于行的序列化需要将每个对象作为一个单元来存储 1.2.3. C ...
写在前面 今天继续学习hive部分的知识。 Hive中如何实现行列转换 一行变多行 可以对表使用 LATERAL VIEW EXPLODE(),也可以直接使用 EXPLAIN() 函数来处理一行数据。 SELECT name, col1 FROM testarray2 LATERAL VIEW EX ...
在大数据和现代 IT 环境中,任务调度与工作负载自动化(WLA)工具是优化资源利用、提升生产效率的核心驱动力。随着企业对数据分析、实时处理和多地域任务调度需求的增加,这些工具成为关键技术。 本文将介绍当前技术发展背景下的Top 10开源任务调度工具,并探讨它们在大数据和工作负载管理中的实际应用。 任 ...
在当今快速发展的技术领域,DevOps、DataOps和MLOps成为了推动企业数字化转型的三大核心实践。它们各自关注不同的领域,但又相互关联,共同推动着软件和数据的高效开发与运营。 DevOps:软件开发的加速器 DevOps是一种将开发(Development)和运营(Operations)结合 ...
1. 安全和隐私 1.1. 安全在数据工程的执行层面至关重要 1.1.1. 安全需要成为一种思想和行动的习惯 1.1.2. 安全是隐私立足的根本 1.2. 数据安全是数据工程师在其工作和数据工程生命周期的每个阶段需要考虑的首要问题 1.2.1. 数据工程师的安全和隐私职责在不同的组织中会有很大的不同 ...
写在前面 今天继续学习hive部分的知识。 Hive 相关知识 hive中不同的 count 区别 select clazz ,count(distinct id) as cnt ,count(*) as cnt ,count(1) as cnt_1 ,count(id) as cnt_id fro ...
01 背景 公司的数据开发平台需要用到DolphinScheduler做任务调度,其中一个场景是:上游任务执行结束后,需要将任务执行结果传递给下游任务。 DolphinScheduler肯定是能实现任务之间的传参的,具体的可以看:DolphinScheduler | 文档中心 (https://do ...
本文整理自白鲸开源联合创始人,Apache DolphinScheduler PMC Chair,Apache Foundation Member 代立冬的演讲。主要介绍了DolphinScheduler及其架构、DolphinScheduler与OceanBase 的联合大数据方案。 Dolphi ...
本文为您介绍向量检索服务在电商智能搜索和偏好推荐、自然语言处理等AI问答系统、图库类网站多模态搜索、视频检索、分子检测与筛选等场景下的应用。 ...
2023年12月,交通运输部印发《关于加快智慧港口和智慧航道建设的意见》,《意见》贯穿了“3条主线”,其中最首要的主线是“数字化”,数字化是基础,必须通过数字赋能建设、生产、运营、管理、服务的全要素、全过程、全场景,将数据作为新的生产要素,方可夯实智慧港口和智慧航道根基。最核心的是“智慧化”,智慧化 ...
1. 机器学习 1.1. 机器学习正在变得普遍 1.1.1. 机器学习、数据科学、数据工程以及机器学习工程的界限正在变得模糊,并且在各个组织内部都形态各异 1.2. 现状 1.2.1. 某些组织中,机器学习工程师负责处理为机器学习应用程序处理收集到的数据,有时甚至会形成独立且平行工作的数据组织来处理 ...
写在前面 今天来学习hive部分的知识。 Hive 相关概念 Hive是什么? Apache Hive 是一个基于 Hadoop 的数据仓库工具,旨在通过 SQL 类似的查询语言(称为 HiveQL)来实现对存储在 HDFS(Hadoop Distributed File System)中的大规模数 ...