在 5 月和 6 月,SeaTunnel 社区迎来了一轮密集更新:2.3.11 正式发布,新增对 Databend、Elasticsearch 向量、HTTP 批量写入、ClickHouse 多表写入等多个连接器能力,全面提升了数据同步灵活性。同时,近 100 个修复与优化 PR 合入,涵盖 Spa ...
Apache SeaTunnel 社区在“开源之夏 2025”中再传捷报,共有两个项目成功入选,聚焦于 Flink CDC schema 支持与元数据管理的生态扩展方向,体现出 SeaTunnel 在实时数据集成和平台化能力构建上的深入布局。 中选项目与学生如下: 《SeaTunnel on Fli ...
5️⃣距离 2025 IoTDB 用户大会在北京民航国际会议中心(朝阳区花家地东路 3 号)与大家见面还有 5 天! 以「下一站:DB + AI」为主题,近 30 位大咖嘉宾将带来主论坛 + 技术详解、用户案例、科研学术三大分论坛的精彩议题。 ✅目前议题全览请看这里,扫描下方二维码或点击:htt ...
本次 CommunityOverCode Asia 2025 的 DataOps 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧 专题介绍 本专题聚焦 Apache 生态系统中最具创新性和最前沿的项目。该专题汇聚了来自 Apache DolphinSch ...
1. 基本信息 红蓝攻防:技术与策略 Cybersecurity—Attack and Defense Strategies, Third Edition 埃达尔·奥兹卡 (阿联酋) 著 ; [美] 尤里·迪奥赫内斯 (YuriDiogenes) 机械工业出版社,2023年01月出版 1.1. 读薄 ...
1. 数据挖掘 1.1. 数据挖掘的流程可以分解为几个通俗易懂的环节 1.1.1. 有些环节涉及信息技术的应用,如数据中模式的自动发现和评估 1.1.2. 有些则主要依赖数据分析师的创意、常识和商业知识 1.2. 理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运 ...
1. 数据分析式思维 1.1. 在过去的十五年中,各企业在商业基础设施上大量投入,因此具备了更好的数据收集能力 1.2. 几乎每个商业环节都可以收集数据 1.2.1. 运营管理、生产制造、供应链管理、用户行为、市场营销和工作流管理等环节 1.3. “数据科学”所特指的领域:从丰富的数据中获取有用的信 ...
Flink算得上是大数据领域比较优秀的一个工具。 它已经被收归于阿帕奇基金会之下。 本文简介适用于开发的环境,不面向生产。 一、Flink简介 注:以下内容由edge的Copilot生成,本人稍微整理。 Flink 的起源与发展 Apache Flink 起源于 2009 年德国柏林工业大学的 ...
本文分享自天翼云开发者社区《HDFS目录配额(quota)不足导致写文件失败》,作者:5****m 问题背景与现象 给某目录设置quota后,往目录中写文件失败,出现如下问题“The DiskSpace quota of /tmp/tquota2 is exceeded”。 [omm@189-39- ...
本文分享自天翼云开发者社区《HBase Sync功能导致HBase入库性能下降》,作者:5****m 问题背景与现象 HBase入库慢,regionserver日志中大量打印slow sync。 原因分析 1.对比正常写入时间段监控,检查HBase服务整体CPU、内存以及NameNode RPC在异 ...
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...
从 16 年开始参与时序数据库 IoTDB 的研发,时不时的会被问到,你们为什么用 Java 写数据库?Java 能用来写数据库吗? 最开始我会讲,“在 IoTDB 起步的 2011 年,几乎所有知名系统、数据库,都采用 Java 进行开发,像 Hadoop、Hbase、Spark(基于 JVM 的 ...
Apache SeaTunnel Zeta 引擎是社区独立设计的大数据集成和同步专用引擎,本文聚焦于 Zeta 引擎中 TaskExecutionService 和任务调度模型的优化设计,涵盖 TaskGroup 的通信方式、call() 驱动模型,以及静态标记与动态线程共享两种线程资源优化策略,深 ...
问题背景 DolphinScheduler 1.3.9版本 查询任务实例列表等接口时,有时会出现响应慢的情况,超过20秒才返回结果。 问题诊断 (1)mysql开启慢日志 /etc/mysql.cnf添加如下配置参数 slow_query_log = ON slow_query_log_file = ...
火电行业作为传统能源的支柱行业,在保障电力供应的同时,也面临着多重结构性挑战。某火力发电厂设备老化严重,煤耗居高不下,且因为各种历史遗留问题导致系统兼容性差,数据孤岛现象严重,故障响应滞后。易知微依托数字孪生仿真渲染引擎EasyTwin建设了数字孪生未来工厂,一比一逼真还原火电厂区整体环境、核心建筑 ...
本文分享自天翼云开发者社区《构建多维打标签算法》,作者:石泽涛 针对各类主题,通过对用户DPI访问数据深度解析,体现数据价值,丰富云产品形态与应用范围;建立行业的标签,能够对用户访问各类APP和网站的行为和内容有深入细致的刻画,为主题运营工作提供必要的数据支撑。在获客成本越来越高的当下,围绕用户的价 ...
2024年,袋鼠云接到了一个不小的挑战。 一家货币交易所的技术负责人在通话里直接说:“我们现在业务都跑在 AWS(亚马逊云平台) 上了,你们的产品(数栈大数据平台)能不能不改代码直接跑在 AWS 上?最好别重学。能跑,还得跑得快。” 出海浪潮下,这样的需求并不稀奇。真正能在 AWS 上 做到“稳定、 ...
本文分享自天翼云开发者社区《基于运营商数据的用户关系模型建立示例》,作者:石泽涛 从社交的角度来看,一种典型的用户关系网络即交往圈。一个用户的交往圈定义为“与用户在一段时间内存在双向联系的所有个体”。根据不同社会群体性质,交往圈又可以分为家庭圈、工作圈、密友圈等。基于运营商数据,可识别的用户之间的关 ...
在数字化转型加速的今天,金融行业正面临前所未有的数据挑战:数据量指数级增长、任务调度日益复杂、数据源类型多样化、处理链路不断延长。某证券公司,作为国内领先的综合性券商,面向内部高强度的 IT 运维与业务流程自动化需求,构建了覆盖调度控制与数据集成的双引擎体系。 借助 白鲸开源推出的 WhaleSch ...
在 Apache DolphinScheduler 社区中,最近有人提出了一个优化提案非常值得大家关注。在 DSIP-91 提案中,这位开发者聚焦于优化当前工作流调试和上线发布流程,解决调试不便、发布步骤繁琐、实例混乱等痛点,提出的优化方案引入“草稿”模式,使工作流可在不上线的状态下进行调试;同时支 ...