刷新
从零开始学Flink:数据源

博主头像 在实时数据处理场景中,数据源(Source)是整个数据处理流程的起点。Flink作为流批一体的计算框架,提供了丰富的Source接口支持,其中通过Kafka获取实时数据是最常见的场景之一。本文将以Flink DataStream API为核心,带你从0到1实现“从Kafka消费数据并输出到日志”的完... ...

Ubuntu上进行Zookeeper集群部署

博主头像 目录1.zookeeper下载2.zookeeper安装与使用3.zookeeper启动4.zookeeper是什么?为什么要用它?为什么不用Hbase自带的? 1.zookeeper下载 版本无特别要求,一般最新稳定版即可。 这里给出3.8.4的下载链接。(点击即可直接下载) zookeeper官 ...

flink on k8s的基本介绍

博主头像 本文分享自天翼云开发者社区《flink on k8s的基本介绍》,作者:l****n 一、背景介绍 Apache Flink 是一个流处理引擎,具有高效的流处理和批处理能力,以及良好的可伸缩性和容错性。Kubernetes(简称 K8s)是一种容器编排系统,用于自动化容器部署、扩展和管理。将 Fli ...

《数据资产管理核心技术与应用》读书笔记- 第七章- 数据权限与安全(一)

博主头像 《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...

数据运营DataOps扩展实时数据系统

博主头像 引言 实时决策已不再是竞争优势;它正成为基本预期。从欺诈检测到个性化推荐,现代系统需要在毫秒内处理和响应用户活动。然而,尽管对实时数据的需求激增,许多工程团队仍在应对脆弱的数据管道、静默故障和易碎的部署。本文中,我们将探讨数据运营DataOps如何为实时架构带来亟需的纪律性。我们将深入探讨持续集成/ ...

基于RAG的工业品商品智能推荐

博主头像 背景 MRO 工业品是企业生产运营中不可或缺的一类物资,核心是为保障生产设备正常运转、维持企业日常运营提供支持,而非直接用于生产最终产品的原材料或零部件。其名称源于英文 “Maintenance(维护)、Repair(维修)、Operations(运营)” 的缩写,本质是 “非生产性采购物资”。 目 ...

大数据产品线生产操作安全规约

博主头像 本文分享自天翼云开发者社区《大数据产品线生产操作安全规约》,作者:朱****静 第一章 总 则 第一条 为健全安全生产制度,落实安全生产责任,增强安全风险/隐患排查治理能力,促进安全生产长效机制建设,防止和减少生产安全事故,结合大数据产品线实际情况,特制定本生产操作安全管理办法。 第二条 本管理办法 ...

《数据资产管理核心技术与应用》读书笔记- 第六章-数据监控与告警(二) -如何使用Grafana和Prometheus来实现数据监控与告警

博主头像 《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...

Uber Eats优食如何删除上亿张商品重复图片数据

博主头像 背景 在 Uber Eats 优食的规模上,图像处理是运营的必要条件。该平台管理着数亿张产品图片,每小时有数百万次更新流经系统。每张图像都有成本:网络带宽、处理时间、存储空间和 CDN 占用空间。随着 Uber Eats 优食从餐厅扩展到杂货、酒类和家居用品,形象渠道开始紧张。例如,单一产品(例如一 ...

数据治理之数据质量评估维度及方法

博主头像 本文分享自天翼云开发者社区《数据治理之数据质量评估维度及方法》,作者:i****n 从某种程度上来说“数据=金钱”,数据质量的好坏直接决定着数据价值高低,直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估 ...

读用数据说服:如何设计、呈现和捍卫你的数据08数据呈现和反对意见

博主头像 1. 数据呈现 1.1. 数据自己会说话,但事实并非如此 1.1.1. 数据不会说话,当然更不能解释它对你的业务有何意义 1.1.2. 数据自己不会说话,必须由你让它说话 1.2. 在最好的情况下,数据导向的演示文稿能够促进交互,丰富讨论,得出优质决策 1.3. TOP-T框架,这是一种数据向幻灯片 ...

Hive自定义函数(UDF)开发和应用流程

博主头像 目录引言一、Hive自定义函数的类型二、准备环境和工具三、实际案例开发编译四、前方有坑请注意五、总结 引言 Hive作为大数据领域的核心计算引擎,凭借其强大的SQL支持和丰富的内置函数,早已成为数据开发者的效率利器。然而在实际业务场景中,面对复杂的数据处理需求时,仅仅依赖内置函数往往力不从心,当需要 ...

数据治理之数据资产健康度量

博主头像 本文分享自天翼云开发者社区《数据治理之数据资产健康度量》,作者:徐****东 随着数据量的不断增加,数据治理已经成为了企业管理里不可或缺的一环。数据治理可以帮助我们更好地进行数据的管理和使用,从而提升数据的质量和价值,同时也能够保证数据的安全和合规。 一、数据治理面临的问题 数据治理中主要面临的问题 ...

数据治理之构建数据资产目录

博主头像 本文分享自天翼云开发者社区《数据治理之构建数据资产目录》,作者:徐****东 一、引言 现如今,数据已经成为企业实现业务价值的关键。随着大数据技术的发展,企业对于数据的收集、分析和利用越来越重视。其中,数据资产化已经成为企业数据管理的重要趋势,它能帮助企业更好地发掘和利用数据中的价值,从而提升业务效 ...

123···19>