摘要: select userid, from_unixtime(createtime,'yyyy-MM-dd') as dateid, regexp_extract(browser,'^([^\\(]*).*$',1) as browser, operationsystem, device, row_nu 阅读全文
posted @ 2024-04-01 12:14 啦啦啦one 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 在通过Hive SQL向Parquet或者ORC格式的表插入数据时,如果开启的分区数量太多。很容易导致OOM。即便数据只有小小的几M。 主要原因是在写入这些文件之前,需要将这些批次的行缓存到内存中。 每一个动态分区目录都会有一个文件写入器。因为这些缓冲区都是按照分区维护的。所以所需内存随着分区数量的 阅读全文
posted @ 2024-04-01 12:07 啦啦啦one 阅读(27) 评论(0) 推荐(0) 编辑