摘要: 作为数据从业者,在日常工作中,无论是ETL开发,还是数仓SQL开发,或者工作进展汇报,都可能会涉及到版本管理。这些场景都有什么特点?是否具有共同点呢?以下是一个简单的总结。 1、通用版本管理工具 这类工具可将各类脚本(如SQL、存储过程、python、shell等)进行版本管理。通常要有这些功能:记 阅读全文
posted @ 2025-09-04 16:43 大汪的数据之路 阅读(31) 评论(0) 推荐(0)
摘要: 一、背景 在数据系统的运维运营中,经常遇到一些人工定期重复处理的场景,比如以下这些场景: 1、利用Excel中公式/函数,将各类表格型数据进行加工处理,基于生成的图表制作成PPT进行月度汇报; 2、每天人工检核数据系统的离线跑批是否正常并发送值班提醒; 3、提醒业务定期进行操作,如每个月手工上传各类 阅读全文
posted @ 2025-08-16 09:09 大汪的数据之路 阅读(500) 评论(2) 推荐(1)
摘要: 0、SQL基本用法 SQL是一个非常容易上手的语言,它类似自然语言,用直观的逻辑去查询数据。最简单的SQL就是select * from table where *** order by ***,非常符合直觉。 稍微复杂一点,就是两张表去进行关联,此时只要确定两张表关联的字段就可以了。一般是拿一张事 阅读全文
posted @ 2025-08-11 16:52 大汪的数据之路 阅读(29) 评论(0) 推荐(0)
摘要: 工作十余年以来,在多个行业,不同背景的公司中从事数据开发、架构、运维等相关的岗位,深度使用或者测试过各种类型的数据平台(包括传统关系型数据库、大数据平台、图数据库、嵌入式数据库、时序数据库等)。以下是按照使用时间整理的各数据平台使用经验。 1、SQL Server 微软的产品,可应对数据规模在千万级 阅读全文
posted @ 2025-08-09 22:37 大汪的数据之路 阅读(63) 评论(0) 推荐(0)
摘要: 数据团队运维值班主要有以下几类工作: 一、跑批任务运维 一般来说,大部分非实时数据系统的数据时效为T-1,每日上班前要能展示昨日的数据。一般会在夜间进行对昨日的数据进行批处理。若批处理程序出现错误,则需要人工进行介入处理。 错误一般分为两种,平台工具问题与批处理程序问题。 平台工具类问题,典型案列有 阅读全文
posted @ 2025-07-14 21:01 大汪的数据之路 阅读(32) 评论(0) 推荐(0)
摘要: Python功能强大,上手容易,适合多种应用场景。安装合适的Python环境是开发的第一步。下面针对Windows环境和Linux环境分别介绍下如何进行安装、管理与部署。 一、Windows环境 1、conda环境管理 a、在线环境 如果需要安装的服务器可以连接互联网,那么可以直接下载安装包进行安装 阅读全文
posted @ 2025-07-11 21:44 大汪的数据之路 阅读(213) 评论(0) 推荐(0)
摘要: 1、安装kerberos客户端 下载Kerberos for Windows 2、配置krb5.ini文件 在kerberos安装目录下(如:C:\ProgramData\MIT\Kerberos5)找到krb5.ini文件 将 KDC Server 的服务器上的 /etc/krb5.conf 配置 阅读全文
posted @ 2025-06-24 15:10 大汪的数据之路 阅读(230) 评论(0) 推荐(0)
摘要: 一,案例问题描述: 某销售系统中,注册的用户会在随后的月份中购物下单,需要按月统计注册的用户中各个月下单的金额。源数据表如下: FM::注册月份,CM: 下单月份, AMT:下单金额 期望得到如下统计结果: 在该案列中,随着时间变化,下单月份的值是不断变化的,因此在行列转置中,需要能够满足其动态变化 阅读全文
posted @ 2018-09-29 14:06 大汪的数据之路 阅读(252) 评论(0) 推荐(0)
摘要: ODI中,场景的作用类似发布版本,当映射最终修改版完成时,可以生成场景。无论是映射(Mapping)还是包(Package)都可以生成场景。 包调用映射和调用场景的区别: 1,包直接调用映射,当映射修改保存后,需要重新保存包,并且重新生成包场景,才能使用新的映射逻辑。该方案适用于映射改动很小的情况。 阅读全文
posted @ 2018-09-20 20:28 大汪的数据之路 阅读(450) 评论(0) 推荐(0)
摘要: Oracle中为了解决子集合中查询最值的问题,提出了KEEP()语法。 典型案列如:在每个部门中找出年龄最小的人中的最高工资。 基本语法结构: MAX(COL2) KEEP (DENSE_RANK FIRST/LAST ORDER BY COL1) PARTITION BY() http://blo 阅读全文
posted @ 2017-12-03 11:41 大汪的数据之路 阅读(1615) 评论(0) 推荐(0)