业务挑战与痛点 随着互联网技术的发展、云计算技术的成熟、人工智能技术的兴起和数字化经济的崛起,数据已成为企业的核心资产。在金融行业中,数字化已成为了支撑各类业务场景的核心力量,包括个人理财、企业融资、股票交易、保险理赔、贷款服务、支付结算、投资咨询、资产管理等等。然而,在基于大数据分析与处理技术的业 ...
Apache DolphinScheduler 是一款开源的分布式任务调度系统,旨在帮助用户实现复杂任务的自动化调度和管理。DolphinScheduler 支持多种任务类型,可以在单机或集群环境下运行。下面将介绍如何实现 DolphinScheduler 的自动化打包和单机/集群部署。 自动化打包 ...
2022年4月,在 FlinkX 进行初版开源的整整四年后,技术团队决定对FlinkX进行整体升级,并更名为 ChunJun。到目前为止,ChunJun 正式更名上线已经过了一年多了。作为一款稳定、易⽤、⾼效、批流⼀体的数据集成框架,相信各位关注着、喜爱着、使用着 ChunJun 的开发者们在过去的 ...
Flink是一个分布式系统,要求有效地分配和管理计算资源以执行流式应用程序。它集成了所有常见的集群资源管理器,如Hadoop YARN和Kubernetes,但也可以设置为作为standalone甚至库运行。 本节概述了Flink的体系结构,并描述了其主要组件如何交互以执行应用程序以及从故障中恢复。 ...
# pentaho使用 先展示一下用途和效果 ![image](https://jsd.cdn.zzko.cn/gh/YuanjunXu/Images@main/src/image.1gzusdgfiiao.webp) ## 1. 环境准备 ### 1.1 pentaho是什么? > `pentah ...
![file](https://img2023.cnblogs.com/other/2685289/202309/2685289-20230906144112614-1233246750.png) ## 导读 蜀海供应链是集销售、研发、采购、生产、品保、仓储、运输、信息、金融为一体的餐饮供应链服务企 ...
![file](https://img2023.cnblogs.com/other/2685289/202309/2685289-20230906105454530-376816477.jpg) > 导读:国内某头部理财服务提供商成立于 2019 年,是股份制银行中首批获准筹建、首家获准开业、首家成 ...
当谈到[数据湖](https://www.dtstack.com/dtengine/easylake?src=szsm)的时候,大家都在说,可以把所有数据(结构化/半结构化/非结构化)一股脑都丢进去,进行统一的元数据管理。然后上层计算对接,进行[流批计算](https://www.dtstack.c ...
第一部分为看清:大模型的训练及推理过程是如何的,以及内部逻辑 第二部分为理解:大模型的训练及推理和算力的关系 第三部分为推演:用简单的公式量化大模型算力的需求 第四部分为优化:我们如何提高算力利用率 ...
设想一下,作为一个开发人员,你现在所在的公司有一套线上的 Hadoop 集群。A部门经常做一些定时的 BI 报表,B部门则经常使用软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底应该如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个? 如果你存在上述 ...
#### 一、SSH简介 SSH(Secure Shell)是一种网络安全协议,通过加密和认证机制实现安全访问和文件传输等业务。传统远程登录和文件传输方式有Telnet或FTP,这两种方式都使用明文传输数据,存在很多安全隐患。SSH采用加密传输数据、提升认证强度等手段,克服了Telnet和FTP应用 ...
我喜欢Kusto (或商用版本 Azure Data Explorer,简称 ADX) 是大家可以有目共睹的,之前还专门写过这方面的书籍,请参考 [大数据分析新玩法之Kusto宝典](https://kusto.book.xizhang.com), 很可能在今年还会推出第二季,正在酝酿题材和场景中。 ...
![file](https://img2023.cnblogs.com/other/3195851/202308/3195851-20230831114702799-1091292653.jpg) 提到数据处理,经常有人把它简称为“ETL”。但仔细说来,数据处理经历了ETL、ELT、XX ETL(例 ...
![file](https://img2023.cnblogs.com/other/2685289/202308/2685289-20230831101757216-1368442529.png) 作者 | 李晨 编辑 | Debra Chen 数据准备对于推动有效的自助式分析和数据科学实践至关重要 ...
![file](https://img2023.cnblogs.com/other/2685289/202308/2685289-20230829152524057-1800624819.png) 作者 | sqlboy-yuzhenc ## 背景介绍 在实际应用中,我们经常需要将特定的任务通知给特 ...
如今,大规模、高时效、智能化数据处理已是“刚需”,企业需要更强大的数据平台,来应对数据查询、数据处理、数据挖掘、数据展示以及多种计算模型并行的挑战,湖仓一体方案应运而生。 《实时湖仓实践五讲》是袋鼠云打造的系列直播活动,将围绕实时湖仓的建设趋势和通用问题,邀请奋战于企业数字化一线的核心产品&技术专家 ...
![file](https://img2023.cnblogs.com/other/2685289/202308/2685289-20230828190238753-1379880889.png) 视频贡献者 | 王维饶 视频制作者 | 聂同学 编辑整理 | Debra Chen > Apache ...
![file](https://img2023.cnblogs.com/other/3195851/202308/3195851-20230828185450336-2138333694.png) > 时隔两个月, Apache SeaTunnel 终于迎来大版本更新。此次发布的 2.3.3 版本在 ...
本文主要做推荐系统浅析,主要介绍推荐系统的定义,推荐系统的基础框架,简单介绍设计推荐的相关方法以及架构。适用于部分对推荐系统感兴趣的同学以及有相关基础的同学,本人水平有限,欢迎大家指正。 ...
[数据治理](https://www.dtstack.com/?src=szsm)是推动大型集团企业转型升级、提升竞争优势、实现高质量发展的重要引擎。 通过搭建[大数据平台](https://www.dtstack.com/?src=szsm),实现对业务系统数据的采集、清理、建模、整合,建立一个符 ...