刷新
Spark Streaming监听HDFS文件(Spark-shell)

博主头像 需求:编写程序利用Spark Streaming 监控HDFS 目录/input目录下的文件,并对上传的文件进行词频统计。 首先,linux中需要有netcat,来实现监听功能,有的linux会自带这个软件,可以用下面的命令测试一下,如果不报错就没问题,Ctrl+z可以退出 nc -l 9999 没 ...

读数据工程之道:设计和构建健壮的数据系统27转换

博主头像 1. 转换 1.1. 转换与查询不同 1.1.1. 查询是根据过滤和连接逻辑从各种来源检索数据 1.1.2. 转换将结果持久化,供其他转换或查询使用 1.1.2.1. 结果可以被短暂地或永久地保存 1.1.3. 除了持久性,转换区别于查询的另一个特点是复杂性 1.1.3.1. 你可能会建立复杂的数据 ...

读数据工程之道:设计和构建健壮的数据系统26数据建模

博主头像 1. 数据建模 1.1. 良好的数据架构必须反映出使用这些数据的组织的业务目标和业务逻辑 1.2. 数据湖1.0、NoSQL和大数据系统的兴起,使工程师们有时是为了合理的性能提升去忽略传统的数据建模 1.3. 数据在企业中的地位急剧上升,人们越来越认识到,建模对于实现数据科学需求层次金字塔中更高层次 ...

读数据工程之道:设计和构建健壮的数据系统25查询

博主头像 1. 查询 1.1. 通过理解查询、建模和转换​,你会掌握将原始数据转化为下游利益相关者可用数据的工具 1.2. 被很多人熟知的SQL,这是最流行和通用的查询语言 1.3. 查询是数据工程、数据科学和数据分析的基础 1.4. 在了解数据转换的基本模式和技术之前,你需要了解什么是查询、它如何在各种数据 ...

利用 AWS 的事件驱动数据网格架构应对现代数据挑战

博主头像 背景 在当今数据驱动的世界中,企业必须适应数据管理、分析和利用方式的快速变化。传统的集中式系统和单片式架构虽然在历史上已经足够,但已无法满足企业日益增长的需求,因为企业需要更快地实时获取数据见解。事件驱动数据网格架构是这一领域的革命性框架,与 AWS 服务结合后,它将成为应对复杂数据管理挑战的强大解 ...

读数据湖仓09读后总结与感想兼导读

博主头像 1. 基本信息 数据湖仓 [美]比尔·恩门(BillInmon);[美]戴夫·拉皮恩(DaveRapien);[美]瓦莱丽·特(ValerieBartelt)著 人民邮电出版社 2024年7月出版 1.1. 读薄率 书籍总字数???千字,笔记总字数23238字。 读薄率23238÷???000≈?? ...

袋鼠云秋季发布会圆满落幕,AI驱动让生产力数智化

博主头像 在当今时代,AI 的发展如汹涌浪潮,其速度之快超越了任何历史时期。它以前所未有的迅猛之势,渗入到各个领域的不同场景之中,悄然重塑着商业模式与人们的生活方式。 在 AI 逐渐成为企业基础属性的背景下,袋鼠云举办秋季发布会,以“AI驱动,数智未来”为主题,旨在深度探讨如何凭借 AI 实现新的飞跃,重塑企 ...

DashText-快速开始

博主头像 DashText,是向量检索服务DashVector推荐使用的稀疏向量编码器(Sparse Vector Encoder),DashText可通过BM25算法将原始文本转换为稀疏向量(Sparse Vector)表达,通过DashText可大幅度简化使用DashVector[关键词感知检索]能力。 ...

手把手教你部署Apache DolphinScheduler —— 钉钉告警

博主头像 在之前的文章中,我们已经介绍了Apache DolphinScheduler海豚调度的基本概念和工作流程,以及Shell任务和SQL任务的实践。感兴趣的朋友可以下滑到最下面,点击感兴趣的文章阅读! 今天,让我们来学习Apache DolphinScheduler中的另一个重要功能:钉钉告警。 钉钉群 ...

袋鼠云产品功能更新报告12期|让数据资产管理更高效

博主头像 本期,我们更新和优化了数据资产平台相关功能,为您提供更高效的产品能力。以下为第12期袋鼠云产品功能更新报告,请继续阅读。 一、【元数据】重点更新 |01 元数据管理优化,支持配置表生命周期 之前系统中缺少一个可以基于数据源和数据库维度,批量配置数据表生命周期的入口,导致用户在处理大量数据表时会非常耗 ...

倒计时1天 | 袋鼠云秋季发布会明日10:00开幕,我们云上见!

博主头像 在当今时代,AI 的发展如汹涌浪潮,其速度之快超越了任何历史时期。它以前所未有的迅猛之势,渗入到各个领域的不同场景之中,悄然重塑着商业模式与人们的生活方式。 在 AI 逐渐成为企业基础属性的背景下,袋鼠云举办秋季发布会,以“AI驱动,数智未来”为主题,旨在深度探讨如何凭借 AI 实现新的飞跃,重塑企 ...

全球视野不断拓展!Apache SeaTunnel社区迎来印度籍Committer

博主头像 好消息!社区最近迎来了一位印度籍 Committer——穆罕默德·阿尔沙德(Mohammad Arshad)! 阿尔沙德来自班加罗尔,现任 Visa 公司数据工程师(高级顾问级别),在大数据领域拥有丰富的经验。作为全球最大的支付处理公司之一,Visa 在印度的数字支付和金融科技领域占有重要地位。 阿 ...

读数据工程之道:设计和构建健壮的数据系统23批量获取的考虑因素

博主头像 1. 批量获取的考虑因素 1.1. 批量获取,通常是获取数据的一种便捷方式 1.1.1. 通过从源系统中抽取一个数据子集,根据时间间隔或累积数据的大小来获取数据 1.2. 基于时间间隔的批量获取在传统ETL的数据仓库中很普遍 1.2.1. 每天在非工作时间(也可以按其他频率)处理一次数据,目的是提供 ...

如何实现Dolphinscheduler YARN Task状态跟踪?

博主头像 背景 Dolphinscheduler针对YARN任务,比如说MR、Spark、Flink,甚至是Shell任务,最初都是会判断如果有YARN任务,解析到applicationId。这样就会不单单以判断客户端进程为单一判断依据,还要根据YARN状态进行最终的Dolphinscheduler任务状态判 ...

读数据工程之道:设计和构建健壮的数据系统22获取阶段考虑因素

博主头像 1. 有边界与无边界数据 1.1. 无边界数据是现实中存在的数据,是事件发生时的数据,要么是间断的,要么是连续的、持续的和流动的 1.2. 有边界数据是跨越某种边界(如时间)对数据进行归类的一种便捷方式 1.2.1. 所有的数据在有边界之前都是无边界的 1.3. 长期以来,业务流程通过切割离散的批次 ...

读数据工程之道:设计和构建健壮的数据系统21数据获取

博主头像 1. 数据获取 1.1. 数据获取是将数据从一个地方移动到另一个地方的过程 1.1.1. 数据获取与系统内部获取是不同的 1.2. 数据获取是数据工程生命周期中将数据从源系统移入存储的一个中间步骤 1.3. 数据集成则是将来自不同来源系统的数据组合到一个新的数据集 1.4. 数据获取的核心是数据管道 ...

<1···789···23>