安装Python环境 mkdir /opt/soft curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh 回车之后,一 ...
1. 无服务器 1.1. 云供应商的一个大趋势是无服务器,允许开发人员和数据工程师无须在后台管理服务器即可运行应用程序 1.1.1. 无服务器快速将价值投入到其正确的用例 1.2. 无服务器真正开始流行是在2014年AWS Lambda全面投入使用之后 1.2.1. 由于无须管理服务器,只需在无服务 ...
引言 如今,随着大数据、物联网、人工智能等技术的快速发展,数据量呈现指数级增长。企业迫切需要一个既能快速处理大规模数据,又能保障性能稳定的数据库系统。ClickHouse 在数据分析与查询性能方面表现优异,但随着数据规模不断增长,其在数据写入与合并阶段的瓶颈也日渐凸显。 不少企业尝试通过简单的 ...
1. 开源软件 1.1. 开源软件(Open Source Software,OSS)是一种软件发行模式,在这种模式下,软件和底层代码库通常在特定的许可条款下可供普遍开发者使用 1.2. 社区管理的开源软件 1.2.1. 大部分开源软件项目都是社区管理的开源软件 1.2.2. 流行的开源软件项目社区 ...
2024年10月16日,由中国通信标准化协会主办、中国信息通信研究院承办的“2024 OSCAR开源产业大会”在北京成功举办。工业和信息化部信息技术发展司软件产业处处长李琰、中国信息通信研究院党委副书记王晓丽、中国通信标准化协会副理事长兼秘书长代晓慧出席并发表致辞。人民日报出版社副社长赵军、中国电力 ...
1. 部署位置 1.1. 当公司在决择在何处搭建技术栈时会有数不清的选择 1.1.1. 除非有令人信服的理由,否则不要选择复杂的多云或混合云策略 1.2. 本地 1.2.1. 当越来越多的初创公司在云技术下诞生,本地系统仍是默认的公司创立地 1.2.2. 公司也需要管理软件系统每几年的升级换代 1. ...
在现代数据处理和工作流管理中,Apache DolphinScheduler 以其强大的调度能力和易用性,成为了许多企业和开发者的首选工具。 本文将深入探讨 DolphinScheduler 的进阶使用技巧,包括参数传递、资源中心管理、告警通知配置,以及如何在真实项目中高效使用 DolphinSch ...
1. 选择技术 1.1. 架构第一,技术第二 1.2. 现如今数据工程师因技术种类过于繁杂丰富而感到选择困难 1.3. 许多完整并可立即使用的数据技术触手可得 1.3.1. 开源代码 1.3.2. 托管开源 1.3.3. 软件专利 1.3.4. 服务专利 1.4. 数据工程核心:设计出可靠稳定的系统 ...
Apache SeaTunnel 2.3.8 版本现已正式发布!此次版本后,用户将可以使用期待已久的Docker镜像,还可以体验Job级别日志功能,以及其他更新优化的功能。本文将详细介绍 Apache SeaTunnel 2.3.8 版本中的关键更新内容,欢迎更多开发者和用户参与到我们的开源社区中来 ...
DolphinScheduler 是一款强大的开源分布式任务调度系统,广泛应用于大数据领域,用于管理复杂的工作流。本文将详细介绍如何通过 Docker Compose 安装和配置 DolphinScheduler,以便快速搭建并使用这一系统。 1. 环境准备 首先,确保你的系统已经安装了 Docke ...
1. ZK集群,Hadoop集群,Hbase集群安装 Linux121 Linux122 Linux123 Hadoop ✔ ✔ ✔ MySQL ✔ ZK ✔ ✔ ✔ HBASE ✔ ✔ ✔ 1.1 安装Vmware,安装虚拟机集群 1.1.1 安装 (VMware-workstation-full ...
1. 数据架构不是凭空设计的 1.1. 数据架构是一门抽象学科,所以它有助于通过示例进行推理 2. 数据仓库 2.1. 一个面向主题的、集成的、非易失性和时变的数据集合,以支持管理决策 2.2. 数据仓库是用于报告和分析的中央数据中心 2.2.1. 数据仓库中的数据通常针对分析用例进行了高度格式化和 ...
大家好,我是 V 哥。在实际的业务场景中,Spark任务出现OOM(Out of Memory) 问题通常是由于任务处理的数据量过大、资源分配不合理或者代码存在性能瓶颈等原因造成的。针对不同的业务场景和原因,可以从以下几个方面进行优化和解决。 一、业务场景及可能的OOM原因分析 数据量过大: 业务场 ...
近日,Gartner发布了24年《中国数据分析及人工智能成熟度周期报告》,在成熟度曲线中声明“数据中台”已被淘汰。数据中台,这个曾被奉若圭臬,视为先进架构的标志性建筑,将就此将淡出历史舞台。 有些东西,在它真正消亡前,就已经被遗忘。 其实,早在几年前,国内技术圈已经不再热衷于数据中台概念,一位IT媒 ...
1. 域和服务 1.1. 域是你正在为其构建的现实世界主题区域 1.2. 服务是一组功能,其目标是完成一项任务 1.3. 一个域可以包含多个服务 1.4. 确定领域中应包含的内容 1.4.1. 确定领域应该包含什么以及要包括哪些服务时,最好的建议是简单地去与用户和利益相关者交谈,倾听他们在说什么,并 ...
1. 企业架构 1.1. 企业架构有很多子集,包括业务、技术、应用程序和数据 1.2. TOGAF 1.2.1. The Open Group Architecture Framework,是The Open Group的一个标准 1.2.2. 被誉为当今使用最广泛的架构框架 1.2.3. 定义 1 ...
近日,“创客北京2024”海淀区复赛名单正式公布,白鲸开源凭借其全球领先的云原生DataOps平台——WhaleStudio,荣获企业组优秀奖,并成功进入复赛名单。 此次“创客北京2024”海淀区级赛由中关村科学城管理委员会主办,北京中关村科学城科创服务有限公司与中国北京(海淀)留学人员创业园(海淀 ...
1. 数据问责制 1.1. 数据问责制意味着分配一个人来管理一部分数据 1.1.1. 负责人协调其他利益相关者的治理活动 1.1.2. 如果没有人对相关数据负责,那么管理数据质量就会很困难 1.1.3. 负责数据的人不一定是数据工程师 1.1.4. 负责人可能由软件工程师、产品经理或其他角色担任 1 ...
数据资产管理是一项系统而复杂的工程,涉及到元数据、数据血缘、数据质量、数据服务、数据监控、数据安全、数据权限等众多方面,为了更高效的管理好数据资产,因此在很多大型的企业或者组织中,通常会构建一个数据资产管理平台来管理这些各种各样的数据资产,数据资产管理平台通常会包含如下功能: 关注清哥聊技术公众号, ...
1. 主要底层设计 1.1. 以前的数据工程周期只关注技术层,而工具和实践的持续抽象和简化已经改变了这一重点 1.2. 数据工程现在包含的不仅仅是工具和技术 1.2.1. 该领域现在正在向价值链上游移动,将数据管理和成本优化等传统企业实践与DataOps等新实践相结合 1.3. 底层设计 1.3.1 ...