作者:櫰木 环境准备 本次使用到的二进制软件包目录为:系统初始化前提是操作系统已完成安装、各个主机之间网络互通,系统常用命令已安装,本默认这些前提条件已具备,不在阐述。 1 主机环境初始化 安装centos系统完成后需要对主机进行初始化配置和验证工作,在所有主机上(hd1.dtstack.com-h ...
摘要 随着任务数量、任务类型需求不断增长,对我们的数据开发平台提出了更高的要求。本文主要分享我们将调度引擎升级到 Apache DolphinScheduler 的实践经验,以及对数据开发平台的一些思考。 1. 背景 首先介绍下我们的大数据平台架构: 数据计算层承接了全公司的数据开发需求,负责运行各 ...
如果要评一个2023科技圈的热搜榜,那么以人工智能聊天机器人 ChatGPT 为代表的 AI大模型 绝对会霸榜整个2023。 ChatGPT 于2022年11月30日发布。产品发布5日,注册用户数就超过100万。推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的 ...
作者:櫰木 本次集群规划信息 本次实际生产业务体量存在巨大差异,但集群规划内容相同,因此建议实际生产环境按照按照一定比例扩展即可。 主机操作系统要求 软件信息 参数 配置 8C16G 操作系统版本 CentOS Linux release 7.8.2003 (Core) java版本 java ve ...
大家好,我是独孤风。 又到了本周的开源项目推荐。最近推荐的元数据管理项目很多,但是很多元数据管理平台的功能复杂难用。 那么有没有轻量一点的元数据管理项目呢? 今天为大家推荐的开源项目,就是一个轻量级的元数据管理工具。虽然轻量,但是元数据的收集、展示、数据血缘等功能都是支持的。 让我们一起来看看吧~ ...
在使用海豚调度器创建sqlserver的数据源头时出现连接失败,去服务器那边的api-server/logs下面查看报错信息 报错信息: [ERROR] 2024-01-09 04:11:54.907 -0800 org.apache.dolphinscheduler.plugin.datasour ...
实时统计,也可以理解为流式计算,一个输入流,一个输出流,源源不断。 Kafka Stream Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。 Kafka Stream的特点 Kafka Str ...
1 什么是数字化资产 维克托·迈尔·舍恩伯格在《大数据时代》中提到:“虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题。”数据资源将和土地、人力、资金等生产要素一样,成为企业的资产。业界对于数据资产的定义是企业或组织拥有或控制的,能在未来带来经济利益的数据资源。 数字化资产是指由企业拥有或 ...
大家好,我是独孤风。元数据管理平台层出不穷,但目前主流的还是Atlas、Datahub、Openmetadata三家,那么我们该如何选择呢? 本文就带大家对比一下。要了解元数据管理平台,先要从架构说起。 元数据管理的架构与开源方案 下面介绍元数据管理的架构实现,不同的架构都对应了不同的开源实现。 下 ...
DolphinDB 是一款高性能时序数据库。DolphinDB 集成了功能强大的编程语言和高容量高速度的批流一体数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、计算及分析提供一站式解决方案。在实际生产环境中,经常存在数据导入、转换、查询计算,更新等一系列流程任务,各个部分之间存在依赖 ...
大家好,我是民工哥! 前面给大家介绍了:关系型数据库 MySQL 、 NoSQL 数据库 Redis 、 MongoDB 、搜索引擎 ElasticSearch 等知识体系学习的文章。 在当今这样的就业大背景下,卷是肯定的,强大自己也是必须的。所以,学习不能停,必须一直卷下去。截止今天,又一个知识体 ...
大家好,我是独孤风。 又到了本周的开源项目推荐。数据质量是企业进行数据治理非常重要的一个环节,高质量的数据对管理决策,业务支撑都有非常重要的作用。 只有持续的数据质量改进才能推动数据治理体系的完善,差劲的数据质量就如同顽固的疾病一样,如果不能得到及时的改善,最终可能会导致重大的问题。 近几年来,管理 ...
在之前的内容中,我们深入探讨了 EasyMR 如何利用 Kubernetes 进行部署。大家已经了解到,在 EasyMR 的整体架构中,我们使用 Prometheus 进行节点和服务监控数据的采集、查询和存储。同时,Grafana 作为强大的可视化工具,将 Prometheus 中的监控数据以多样化 ...
目录PostgreSQL创建一张表实施细节用法示例资料分享系列文章clickhouse系列文章 PostgreSQL PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询. 创建一张表 CREATE TAB ...
在实时数据处理领域,Apache Flink 已成为一个不可或缺的工具。它以其高吞吐量和低延迟处理能力而闻名。而在 Flink 的众多特性中,侧输出流(Side Outputs)提供了一种灵活的方式来处理复杂的数据流。本文将探讨如何在 Flink 的 Scala API 中有效使用侧输出流。 1. ...
江铃集团晶马汽车有限公司(简称:晶马汽车)系江铃集团全资子公司,属集团六大整车企业之一。晶马汽车是以大、中、轻型客车(含新能源客车)、乘用车(不含轿车)、专用车等车型研发、生产、销售和服务为核心的整车企业,涉及客运、公交、旅游、通勤、旅居车、物流、专用车等行业客户。 伴随公司信息化和数字化建设的逐步 ...
环境:hive 3.1.0 执行引擎:hive on tez 什么是hive ACID? hive官网对于ACID的介绍: https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions 中文文档关于ACID的介绍: https: ...
从Demo入手,了解Paimon/Flink项目搭建的全过程。记录下采坑之旅。 创建Flink项目 在IDEA中创建Flink项目,由于没有Flink的archetype,因此需要手动创建一下。 参考:idea快速创建flink项目,至此Flink的项目框架就搭建起来了。 注意:必须注释掉pom文件 ...
Partial Update 数据打宽 通过不同的流写不同的字段,打宽了数据的维度,填充了数据内容;如下所示: --FlinkSQL参数设置 set `table.dynamic-table-options.enabled` = `true`; SET `env.state.backend` = ` ...
表单是B端产品中最常见的组件之一,主要⽤于数据收集、校验和提交。比如登陆流程的账号密码填写,注册流程的邮箱、用户名等信息填写,都是表单应用的常见案例,在数栈产品中也是出现频率⾮常⾼的组件。 尽管表单应用十分普遍,但在我们对旧版数栈产品进行调研时,发现许多产品同学都反馈了关于表单的问题。所以在实际设计 ...