【kettle & postgresql】temporary file size exceeds temp_file_limit解决办法

使用kettle从postgresql拉取数据时，可能会因为数据量过大，出现“ERROR: temporary file size exceeds temp_file_limit(16777216kB)”的报错

这个临时文件大小限制是postgresql的参数temp_file_limit设置的（参考：PostgreSQL配置参数temp_file_limit_wx5bcd90b347f01的技术博客_51CTO博客），其参数含义是

指定一个进程可以占用的最大的磁盘空间。该磁盘空间可以用于temporary files(sort及hash使用)或者持有cursor的storage file。试图超过该限制的transaction会被取消。

在没有权限修改此参数的情况下，如果从pg取数的SQL只是简单的select ... from ... where 语句，我们可以通过设置【文本文件输出】中的“分拆...每一行”设置每个文件放多少行数据，解决临时文件过大的问题。

为何此种方式能生效，可参考

数据库游标及其优点 - 苏晓敏 - 博客园 (cnblogs.com)

(89条消息) mysql的查询原理_数据库SQL SELECT查询的工作原理_曹阳明的博客-CSDN博客

问题的关键点在生成的【物理存储文件】，通过设置每个文件的存储行数，即将结果进行了切分后，物理存储文件（temp_file_limit）没有超过限制，那么有很大一个可能是这种情况下kettle对select添加了LIMIT offset,row_count的处理

SELECT * FROM xxx LIMIT OFFSET,ROW_COUNT

（待求证这种方式是否会进行执行计划优化）

但是当取数的SQL中存在join，那此方法就不管用了，要取得有join操作的sql的结果，必须获取到整个sql的结果然后取偏移的数据，但是输出结果的时候就超出了临时文件大小限制，任务就失败了，解决办法就是增加where条件，或者缩小where条件取数的数量，使得结果不超出限制。比如原来时间范围是1年，现在改为1个月，或者采用更精确的做法：根据数据表每行数据占用的存储空间来估计最大的行数，从而设置where条件。

下图为这种处理方式的一个示例，airflow任务会调用kettle取数脚本，通过将取数时间分段拆分成多个任务（缩小where条件的能获取到的数据量），解决了全量取数时数据量超出pg临时文件大小限制的问题。

posted @ 2022-09-08 18:52 梦醒江南·Infinite 阅读(1405) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

会挽雕弓如满月

【kettle & postgresql】temporary file size exceeds temp_file_limit解决办法

公告