01 2024 档案

摘要:hive中日期格式转换 日期时间格式大致分成时间戳和日期时间格式互转,字符串转化成日期时间格式,日期格式之间的转化 1.时间戳和日期互转 unix_timestamp函数,日期转时间戳 当函数参数为空时,返回当前时间戳。 当函数参数为空时,返回当前时间戳。 select unix_timestamp 阅读全文
posted @ 2024-01-30 17:49 whiteY 阅读(3229) 评论(0) 推荐(0) 编辑
摘要:reduce的个数一般最后决定了输出文件的个数,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加reduce个数。如果想减少文件个数,也可以手动较少reduce个数(同样可能程序变慢)。但实际开发中,reduce的个数一般通过程序自动推定,而不人为干涉,因为人为控制的话,如 阅读全文
posted @ 2024-01-29 11:47 whiteY 阅读(817) 评论(0) 推荐(0) 编辑
摘要:为什么要使用分区表 默认情况下,Hive中的查询会扫描整个表来获取结果。 现在,考虑一个Hive表,它有数百万行。当一个简单的查询扫描该表时,它会消耗系统资源。而查询将花费大量时间来获取结果,这最终会影响hive应用程序的性能。 因此,在分析如此大的表时,我们需要一种技术来优化查询的性能,其中一种技 阅读全文
posted @ 2024-01-25 17:50 whiteY 阅读(38) 评论(0) 推荐(0) 编辑
摘要:1.什么是分区? ​ 所谓的分区就是将一个表分解成多个区块进行操作和保存,从而降低每次操作的数据,提高性能,而对应用来说是透明的,从逻辑上看就只是一个表(这里跟分库分表的访问不一样),但是物理上的这个表可能是由多个物理分区组成,每个分区都是一个独立的对象,可以进行独立处理。 2.分区目的? 1.进行 阅读全文
posted @ 2024-01-15 17:55 whiteY 阅读(60) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示