刷新
读数据工程之道:设计和构建健壮的数据系统33未来

博主头像 1. 未来 1.1. 运营的优先级和最佳实践与技术可能会改变,但生命周期的主要阶段会在许多年内保持不变 1.2. 随着组织以新的方式利用数据,将需要新的基础、系统和工作流来满足这些需求 1.3. 如果工具变得更容易使用,数据工程师就会向价值链上游移动,专注于更高级别的工作 1.4. 数据工程生命周期 ...

hive基础知识分享(三)

博主头像 写在前面 今天继续学习hive部分的知识。 Hive中如何实现行列转换 一行变多行 可以对表使用 LATERAL VIEW EXPLODE(),也可以直接使用 EXPLAIN() 函数来处理一行数据。 SELECT name, col1 FROM testarray2 LATERAL VIEW EX ...

精选 Top10 开源调度工具,解锁高效工作负裁自动化

博主头像 在大数据和现代 IT 环境中,任务调度与工作负载自动化(WLA)工具是优化资源利用、提升生产效率的核心驱动力。随着企业对数据分析、实时处理和多地域任务调度需求的增加,这些工具成为关键技术。 本文将介绍当前技术发展背景下的Top 10开源任务调度工具,并探讨它们在大数据和工作负载管理中的实际应用。 任 ...

读数据工程之道:设计和构建健壮的数据系统31安全和隐私

博主头像 1. 安全和隐私 1.1. 安全在数据工程的执行层面至关重要 1.1.1. 安全需要成为一种思想和行动的习惯 1.1.2. 安全是隐私立足的根本 1.2. 数据安全是数据工程师在其工作和数据工程生命周期的每个阶段需要考虑的首要问题 1.2.1. 数据工程师的安全和隐私职责在不同的组织中会有很大的不同 ...

hive基础知识分享(二)

博主头像 写在前面 今天继续学习hive部分的知识。 Hive 相关知识 hive中不同的 count 区别 select clazz ,count(distinct id) as cnt ,count(*) as cnt ,count(1) as cnt_1 ,count(id) as cnt_id fro ...

向量检索服务-应用场景

博主头像 本文为您介绍向量检索服务在电商智能搜索和偏好推荐、自然语言处理等AI问答系统、图库类网站多模态搜索、视频检索、分子检测与筛选等场景下的应用。 ...

袋鼠云港口数智化解决方案发布,数智引领,加速“智变”丨2024袋鼠云秋季发布会回顾

博主头像 2023年12月,交通运输部印发《关于加快智慧港口和智慧航道建设的意见》,《意见》贯穿了“3条主线”,其中最首要的主线是“数字化”,数字化是基础,必须通过数字赋能建设、生产、运营、管理、服务的全要素、全过程、全场景,将数据作为新的生产要素,方可夯实智慧港口和智慧航道根基。最核心的是“智慧化”,智慧化 ...

读数据工程之道:设计和构建健壮的数据系统30机器学习

博主头像 1. 机器学习 1.1. 机器学习正在变得普遍 1.1.1. 机器学习、数据科学、数据工程以及机器学习工程的界限正在变得模糊,并且在各个组织内部都形态各异 1.2. 现状 1.2.1. 某些组织中,机器学习工程师负责处理为机器学习应用程序处理收集到的数据,有时甚至会形成独立且平行工作的数据组织来处理 ...

hive基础知识分享(一)

博主头像 写在前面 今天来学习hive部分的知识。 Hive 相关概念 Hive是什么? Apache Hive 是一个基于 Hadoop 的数据仓库工具,旨在通过 SQL 类似的查询语言(称为 HiveQL)来实现对存储在 HDFS(Hadoop Distributed File System)中的大规模数 ...

hadoop基础知识分享(二)

博主头像 写在前面 今天继续学习hadoop部分的知识。 MapReduce 数据切片 InputFormat 接口 InputFormat 是一个抽象类,定义了两个方法: getSplits:负责实现数据切片的方法 createRecordReader:实现数据的 key-value 格式。 FileInp ...

使用SeaTunnel从InfluxDB同步数据到Doris

博主头像 本文介绍了如何使用SeaTunnel将数据从InfluxDB同步到Doris。通过SeaTunnel强大的数据集成功能,用户可以高效地将存储于InfluxDB中的时间序列数据传输至Doris,便于数据的访问与分析。 版本信息: SeaTunnel 2.3.3 InfluxDB 2.7.6 Doris ...

TableFill:一天搞定1000人的数据填报工作丨2024袋鼠云秋季发布会回顾

博主头像 10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。 会上,易知微产品经理林树为大家带来了一款新产品——多层级数据填报与报送平台TableFill。TableFill是一款一站式表单填 ...

读数据工程之道:设计和构建健壮的数据系统29分析

博主头像 1. 合作角色 1.1. 数据分析师 1.2. 数据科学家 1.3. MLOps/机器学习工程师 1.4. 业务侧 1.4.1. 数据或非技术的利益相关者、经理和高管 1.5. 数据工程师更多的是在支持这些利益相关者的工作,不一定对数据的最终使用方式负责 1.6. 数据工程师负责的是产出高质量的数据 ...

指标+AI+BI:构建数据分析新范式丨2024袋鼠云秋季发布会回顾

博主头像 10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。 作为大会的重要环节之一,袋鼠云数栈产品经理潮汐带来了题为《指标+AI+BI:构建数据分析新范式》的精彩演讲,深入剖析了当前企业在进 ...

<1···678···23>