本文详细介绍Apache Flink的批处理与流处理执行模式,包括Execution Mode的概念、配置方法、实现原理以及最佳实践。 ...
在实时数据处理场景中,数据源(Source)是整个数据处理流程的起点。Flink作为流批一体的计算框架,提供了丰富的Source接口支持,其中通过Kafka获取实时数据是最常见的场景之一。本文将以Flink DataStream API为核心,带你从0到1实现“从Kafka消费数据并输出到日志”的完... ...
目录1.zookeeper下载2.zookeeper安装与使用3.zookeeper启动4.zookeeper是什么?为什么要用它?为什么不用Hbase自带的? 1.zookeeper下载 版本无特别要求,一般最新稳定版即可。 这里给出3.8.4的下载链接。(点击即可直接下载) zookeeper官 ...
本文分享自天翼云开发者社区《flink on k8s的基本介绍》,作者:l****n 一、背景介绍 Apache Flink 是一个流处理引擎,具有高效的流处理和批处理能力,以及良好的可伸缩性和容错性。Kubernetes(简称 K8s)是一种容器编排系统,用于自动化容器部署、扩展和管理。将 Fli ...
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...
引言 实时决策已不再是竞争优势;它正成为基本预期。从欺诈检测到个性化推荐,现代系统需要在毫秒内处理和响应用户活动。然而,尽管对实时数据的需求激增,许多工程团队仍在应对脆弱的数据管道、静默故障和易碎的部署。本文中,我们将探讨数据运营DataOps如何为实时架构带来亟需的纪律性。我们将深入探讨持续集成/ ...
背景 MRO 工业品是企业生产运营中不可或缺的一类物资,核心是为保障生产设备正常运转、维持企业日常运营提供支持,而非直接用于生产最终产品的原材料或零部件。其名称源于英文 “Maintenance(维护)、Repair(维修)、Operations(运营)” 的缩写,本质是 “非生产性采购物资”。 目 ...
本文分享自天翼云开发者社区《大数据产品线生产操作安全规约》,作者:朱****静 第一章 总 则 第一条 为健全安全生产制度,落实安全生产责任,增强安全风险/隐患排查治理能力,促进安全生产长效机制建设,防止和减少生产安全事故,结合大数据产品线实际情况,特制定本生产操作安全管理办法。 第二条 本管理办法 ...
本篇文章主要从Pulsar运维痛点、Ansible简介、Ansible核心模块详解、Ansible自动化部署zk集群、Ansible自动化部署Pulsar集群几个维度向大家介绍vivo Pulsar万亿级消息处理实践之运维部署。 ...
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...
背景 在 Uber Eats 优食的规模上,图像处理是运营的必要条件。该平台管理着数亿张产品图片,每小时有数百万次更新流经系统。每张图像都有成本:网络带宽、处理时间、存储空间和 CDN 占用空间。随着 Uber Eats 优食从餐厅扩展到杂货、酒类和家居用品,形象渠道开始紧张。例如,单一产品(例如一 ...
本文分享自天翼云开发者社区《数据治理之数据质量评估维度及方法》,作者:i****n 从某种程度上来说“数据=金钱”,数据质量的好坏直接决定着数据价值高低,直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估 ...
1. 基本信息 用数据说服:如何设计、呈现和捍卫你的数据 米罗·卡扎科夫 著 金城出版社有限公司,2025年07月出版 1.1. 读薄率 书籍总字数8.6万字,笔记总字数26227字。 读薄率26227÷86000≈30.5% 1.2. 读厚方向 DataMesh权威指南 数据的边界:隐私与个人数据 ...
本文结合真实案例,详细介绍 DolphinScheduler 3.1.9 的二次开发环境配置流程,希望为有定制化开发需求的用户提供实用、可靠的参考。 ...
1. 数据呈现 1.1. 数据自己会说话,但事实并非如此 1.1.1. 数据不会说话,当然更不能解释它对你的业务有何意义 1.1.2. 数据自己不会说话,必须由你让它说话 1.2. 在最好的情况下,数据导向的演示文稿能够促进交互,丰富讨论,得出优质决策 1.3. TOP-T框架,这是一种数据向幻灯片 ...
1. 数据框架 1.1. 受众评判的不只是数据 1.2. 有力证据和清晰结构是高效数据沟通的基础 1.2.1. 薄弱证据和迷糊逻辑往往也能促使他人行动 1.3. 数据评判不准确有很多都是由认知偏误造成的,也就是屡错屡犯的系统性思维误区 1.4. 中枢处理(central processing) 1. ...
目录引言一、Hive自定义函数的类型二、准备环境和工具三、实际案例开发编译四、前方有坑请注意五、总结 引言 Hive作为大数据领域的核心计算引擎,凭借其强大的SQL支持和丰富的内置函数,早已成为数据开发者的效率利器。然而在实际业务场景中,面对复杂的数据处理需求时,仅仅依赖内置函数往往力不从心,当需要 ...
1. 明托金字塔(Minto pyramid) 1.1. 目的是加强沟通的清晰度,用故事来确定主旨,检验论证的逻辑严谨性 1.2. 明托金字塔是一种着眼于最终沟通形式的思维组织工具 1.3. 得名于推广者芭芭拉·明托(Barbara Minto) 1.4. 支持主旨的是一组核心论点 1.4.1. 芭 ...
本文分享自天翼云开发者社区《数据治理之数据资产健康度量》,作者:徐****东 随着数据量的不断增加,数据治理已经成为了企业管理里不可或缺的一环。数据治理可以帮助我们更好地进行数据的管理和使用,从而提升数据的质量和价值,同时也能够保证数据的安全和合规。 一、数据治理面临的问题 数据治理中主要面临的问题 ...
本文分享自天翼云开发者社区《数据治理之构建数据资产目录》,作者:徐****东 一、引言 现如今,数据已经成为企业实现业务价值的关键。随着大数据技术的发展,企业对于数据的收集、分析和利用越来越重视。其中,数据资产化已经成为企业数据管理的重要趋势,它能帮助企业更好地发掘和利用数据中的价值,从而提升业务效 ...