随笔分类 -  大数据

摘要:HiveSQL 原理 join join 分为 MapJoin、ReduceJoin 两种,其中 MapJoin 思想是将小表存内存,然后大表分片,与小表完成连接操作。 MapJoin Map 阶段分为两个操作: 将小表数据读入内存,生成分片文件后存储到分布式存储系统中; 每个 Mapper 从分布 阅读全文
posted @ 2024-08-08 11:07 Stitches 阅读(42) 评论(0) 推荐(0) 编辑
摘要:注意点 全局排序 OrderBy SELECT <select_expression>, <select_expression>, ... FROM <table_name> ORDER BY <col_name> [ASC|DESC] [,col_name [ASC|DESC], ...] Hiv 阅读全文
posted @ 2024-08-08 11:07 Stitches 阅读(8) 评论(0) 推荐(0) 编辑
摘要:窗口函数 窗口函数可以更加灵活地对一定范围内的数据进行操作和分析,它能够为每行数据划分一个窗口,然后对窗口范围内的数据进行计算,最后将计算结果返回给该行数据; 举个例子,区别于 GroupBy,GroupBy 对分组范围内的数据进行聚合统计,得到当前分组的一条结果;窗口函数对每一条数据处理,展开一个 阅读全文
posted @ 2024-08-08 11:06 Stitches 阅读(191) 评论(0) 推荐(0) 编辑
摘要:Hive 分区表 https://blog.csdn.net/weixin_41122339/article/details/81584110 表在存储时,可以将数据根据分区键的列值存储在表目录的子目录中。这样将数据切分到不同目录存储后,可以加快对分区键字段的查询和过滤速度,通过在查询条件中指定过滤 阅读全文
posted @ 2024-07-26 19:16 Stitches 阅读(49) 评论(0) 推荐(0) 编辑
摘要:Hive DDL 操作 操作前需要保证 hive 成功启动: # 启动 HiveServer2 hive --service hiveserver2 & # 启动 MetaStore hive --service metastore & # 进入 hive 命令行界面 beeline -u jdbc 阅读全文
posted @ 2024-07-26 19:15 Stitches 阅读(13) 评论(0) 推荐(0) 编辑
摘要:SparkStreaming sparkStreaming 用于处理流式数据,其中输入数据源包括 Kafka、Flume、HDFS 等;结果输出目的地址包括 HDFS、数据库。 SparkCore 对应 RDD;SparkSQL 对应 DataFrame/DataSet;SparkStreaming 阅读全文
posted @ 2024-07-26 14:51 Stitches 阅读(7) 评论(0) 推荐(0) 编辑
摘要:SparkSQL简介 为什么需要 SparkSQL? Spark 的 RDD有一定局限性,无法处理结构化数据(比如 json 格式等等); SparkSQL 提供了两种编程的抽象,DataFrame(关心数据结构不关心类型),DataSet(关心面向对象的数据); RDD、DataFrame、Dat 阅读全文
posted @ 2024-07-23 20:59 Stitches 阅读(11) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示