刷新
hadoop基础知识分享(二)

博主头像 写在前面 今天继续学习hadoop部分的知识。 MapReduce 数据切片 InputFormat 接口 InputFormat 是一个抽象类,定义了两个方法: getSplits:负责实现数据切片的方法 createRecordReader:实现数据的 key-value 格式。 FileInp ...

使用SeaTunnel从InfluxDB同步数据到Doris

博主头像 本文介绍了如何使用SeaTunnel将数据从InfluxDB同步到Doris。通过SeaTunnel强大的数据集成功能,用户可以高效地将存储于InfluxDB中的时间序列数据传输至Doris,便于数据的访问与分析。 版本信息: SeaTunnel 2.3.3 InfluxDB 2.7.6 Doris ...

TableFill:一天搞定1000人的数据填报工作丨2024袋鼠云秋季发布会回顾

博主头像 10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。 会上,易知微产品经理林树为大家带来了一款新产品——多层级数据填报与报送平台TableFill。TableFill是一款一站式表单填 ...

读数据工程之道:设计和构建健壮的数据系统29分析

博主头像 1. 合作角色 1.1. 数据分析师 1.2. 数据科学家 1.3. MLOps/机器学习工程师 1.4. 业务侧 1.4.1. 数据或非技术的利益相关者、经理和高管 1.5. 数据工程师更多的是在支持这些利益相关者的工作,不一定对数据的最终使用方式负责 1.6. 数据工程师负责的是产出高质量的数据 ...

指标+AI+BI:构建数据分析新范式丨2024袋鼠云秋季发布会回顾

博主头像 10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。 作为大会的重要环节之一,袋鼠云数栈产品经理潮汐带来了题为《指标+AI+BI:构建数据分析新范式》的精彩演讲,深入剖析了当前企业在进 ...

Spark Streaming监听HDFS文件(Spark-shell)

博主头像 需求:编写程序利用Spark Streaming 监控HDFS 目录/input目录下的文件,并对上传的文件进行词频统计。 首先,linux中需要有netcat,来实现监听功能,有的linux会自带这个软件,可以用下面的命令测试一下,如果不报错就没问题,Ctrl+z可以退出 nc -l 9999 没 ...

读数据工程之道:设计和构建健壮的数据系统27转换

博主头像 1. 转换 1.1. 转换与查询不同 1.1.1. 查询是根据过滤和连接逻辑从各种来源检索数据 1.1.2. 转换将结果持久化,供其他转换或查询使用 1.1.2.1. 结果可以被短暂地或永久地保存 1.1.3. 除了持久性,转换区别于查询的另一个特点是复杂性 1.1.3.1. 你可能会建立复杂的数据 ...

读数据工程之道:设计和构建健壮的数据系统26数据建模

博主头像 1. 数据建模 1.1. 良好的数据架构必须反映出使用这些数据的组织的业务目标和业务逻辑 1.2. 数据湖1.0、NoSQL和大数据系统的兴起,使工程师们有时是为了合理的性能提升去忽略传统的数据建模 1.3. 数据在企业中的地位急剧上升,人们越来越认识到,建模对于实现数据科学需求层次金字塔中更高层次 ...

读数据工程之道:设计和构建健壮的数据系统25查询

博主头像 1. 查询 1.1. 通过理解查询、建模和转换​,你会掌握将原始数据转化为下游利益相关者可用数据的工具 1.2. 被很多人熟知的SQL,这是最流行和通用的查询语言 1.3. 查询是数据工程、数据科学和数据分析的基础 1.4. 在了解数据转换的基本模式和技术之前,你需要了解什么是查询、它如何在各种数据 ...

利用 AWS 的事件驱动数据网格架构应对现代数据挑战

博主头像 背景 在当今数据驱动的世界中,企业必须适应数据管理、分析和利用方式的快速变化。传统的集中式系统和单片式架构虽然在历史上已经足够,但已无法满足企业日益增长的需求,因为企业需要更快地实时获取数据见解。事件驱动数据网格架构是这一领域的革命性框架,与 AWS 服务结合后,它将成为应对复杂数据管理挑战的强大解 ...

读数据湖仓09读后总结与感想兼导读

博主头像 1. 基本信息 数据湖仓 [美]比尔·恩门(BillInmon);[美]戴夫·拉皮恩(DaveRapien);[美]瓦莱丽·特(ValerieBartelt)著 人民邮电出版社 2024年7月出版 1.1. 读薄率 书籍总字数???千字,笔记总字数23238字。 读薄率23238÷???000≈?? ...

袋鼠云秋季发布会圆满落幕,AI驱动让生产力数智化

博主头像 在当今时代,AI 的发展如汹涌浪潮,其速度之快超越了任何历史时期。它以前所未有的迅猛之势,渗入到各个领域的不同场景之中,悄然重塑着商业模式与人们的生活方式。 在 AI 逐渐成为企业基础属性的背景下,袋鼠云举办秋季发布会,以“AI驱动,数智未来”为主题,旨在深度探讨如何凭借 AI 实现新的飞跃,重塑企 ...

DashText-快速开始

博主头像 DashText,是向量检索服务DashVector推荐使用的稀疏向量编码器(Sparse Vector Encoder),DashText可通过BM25算法将原始文本转换为稀疏向量(Sparse Vector)表达,通过DashText可大幅度简化使用DashVector[关键词感知检索]能力。 ...

手把手教你部署Apache DolphinScheduler —— 钉钉告警

博主头像 在之前的文章中,我们已经介绍了Apache DolphinScheduler海豚调度的基本概念和工作流程,以及Shell任务和SQL任务的实践。感兴趣的朋友可以下滑到最下面,点击感兴趣的文章阅读! 今天,让我们来学习Apache DolphinScheduler中的另一个重要功能:钉钉告警。 钉钉群 ...

袋鼠云产品功能更新报告12期|让数据资产管理更高效

博主头像 本期,我们更新和优化了数据资产平台相关功能,为您提供更高效的产品能力。以下为第12期袋鼠云产品功能更新报告,请继续阅读。 一、【元数据】重点更新 |01 元数据管理优化,支持配置表生命周期 之前系统中缺少一个可以基于数据源和数据库维度,批量配置数据表生命周期的入口,导致用户在处理大量数据表时会非常耗 ...

<1···456···23>