摘要: 今天算是把前几天的坑慢慢填上了。昨天卡在环境配置和权限问题上,折腾到很晚都没完全理顺。 上午把昨天报错的日志重新看了一遍,对照着教程一条一条比对,终于发现是自己配置文件里少写了一个参数,气笑了。 下午开始跟着新的内容往下走,因为前面的基础通了,今天理解起来明显顺畅很多。遇到不懂的地方不再硬扛,先记下 阅读全文
posted @ 2026-02-14 18:49 Thanatos。syts 阅读(2) 评论(0) 推荐(0)
摘要: 新的知识点学习:Hive的聚合函数和窗口函数。之前学过简单的数值计算函数(比如计数、求和),今天学的聚合函数,其实是在此基础上的进阶,而且更适合批量统计分析,比如统计每个日期、每个地区的访问总量、商品点击总量。 今天重点学了最基础的窗口函数:row_number(给每条数据排名,不重复)、rank( 阅读全文
posted @ 2026-02-09 21:51 Thanatos。syts 阅读(3) 评论(0) 推荐(0)
摘要: 早上起来先惯例检查Hive环境,启动Docker容器一切正常,就直接进入正题——函数综合练习。今天特意找了一份模拟的电商用户行为日志数据(包含用户ID、访问时间、商品ID、操作类型、IP地址这些字段),建了一个多级分区表(日期+操作类型),然后用函数做各种数据处理 一开始练的是字符串函数和查询优化的 阅读全文
posted @ 2026-02-08 14:33 Thanatos。syts 阅读(4) 评论(0) 推荐(0)
摘要: 上午把查询优化练得差不多,下午就开始入门Hive的基础函数了。之前听别人说Hive函数很多,但入门阶段不用学太多,先掌握最常用的、基础的就够了,所以今天重点学了字符串处理函数和数值计算函数,这些后续处理数据、清洗数据的时候,肯定会经常用到。 比如字符串处理函数,学了截取字符串、拼接字符串、替换字符串 阅读全文
posted @ 2026-02-05 21:36 Thanatos。syts 阅读(2) 评论(0) 推荐(0)
摘要: 今天还练习了分区表的批量加载和分区管理,比如一次性加载多个日期的分区数据,还有添加、删除无用分区的操作。 之前只知道怎么加载单个分区的数据,批量加载的时候总担心会出错,试了几次发现,只要把数据按分区目录整理好,再执行批量加载命令就行了。 今天重点学了几个基础的优化技巧,都是不用深入原理、上手就能用的 阅读全文
posted @ 2026-02-02 17:23 Thanatos。syts 阅读(3) 评论(0) 推荐(0)
摘要: 今日踩坑。建表时分区字段和普通字段混写,导致建表失败; ​加载数据未指定分区值,数据存入默认目录,分区查询无结果;解决方法。指定分区值的加载要点 ​ 多级分区表的建表与数据加载,实操中的小注意事项 分区表基础小技巧 1. 如何添加/删除分区 ​ 2. 分区查询无数据的常见排查:比如刷新元数据的简单操 阅读全文
posted @ 2026-01-31 23:17 Thanatos。syts 阅读(6) 评论(0) 推荐(0)
摘要: 过去几天在和新系统斗智斗勇,现在重新回来学hive和大数据。 今天一开始,我先回顾了下昨天的内容,确认 Hive 环境正常,然后就创建分区表了。 我一开始还是按照普通表的加载方式,直接把数据加载进去,结果发现数据虽然加载成功了,但查询指定分区的时候,却查不到任何数据,原来加载分区表数据的时候,要指定 阅读全文
posted @ 2026-01-27 15:13 Thanatos。syts 阅读(4) 评论(0) 推荐(0)
摘要: 完犊子了。 C盘炸了,重装系统。 现在正在跟win11斗智斗勇。 阅读全文
posted @ 2026-01-23 16:54 Thanatos。syts 阅读(2) 评论(0) 推荐(0)
摘要: 其实昨天就大概看了下 Hive 的基础概念,知道它是用 SQL 来处理大数据的工具,不用写复杂的代码,刚好我之前接触过数据库的增删改查,上手起来不算太费劲。 今天还简单了解了下 Hive 的分区表,因为后续处理大数据的时候,数据量会很大,用分区表可以提高查询效率,比如按日期分区,查询某一天的数据时, 阅读全文
posted @ 2026-01-22 20:17 Thanatos。syts 阅读(3) 评论(0) 推荐(0)
摘要: 今天写了个资源网站,用于记录我在学习过程中所用到的资源。 部分代码如下: 我的资源 - 资源总览 📁 MyResources 资源首页 我的资源 上传资源 帮助文档 🔍 📂 ⚙️ ☀️ 浅色主题 🌙 深色主题 🔄 跟随系统 ✓ 🔔 👤 <!-- 主内容区域 --> <main clas 阅读全文
posted @ 2026-01-20 14:31 Thanatos。syts 阅读(6) 评论(0) 推荐(0)