摘要: 单机跑一个脚本做数据处理,但是由于输入数据实在太大,处理过程中占用大量内存经常被系统杀死,所以考虑放在hive中做数据聚合。借此机会研究下UDAF怎么写,把踏坑的经验写出来,希望可以帮助大家少走弯路!嗯。。。就酱紫。 经常听UDF,那么UDAF是什么鬼? 就是聚合功能的UDF啦~ 比如hive内置的 阅读全文
posted @ 2019-06-08 18:24 吹胡子爷爷 阅读(2057) 评论(0) 推荐(0) 编辑
摘要: 在使用局部敏感哈希算法的过程中,发现python有相关实现,但是在下载时报错,很让人抓狂! 百度了很久找不到方法,后来谷歌找到了解决方法(参见https://github.com/kayzhu/LSHash/pull/18)。 简单来说就是,lshash 0.0.4dev 版本的包基于旧版本pyth 阅读全文
posted @ 2018-10-25 18:09 吹胡子爷爷 阅读(1582) 评论(1) 推荐(1) 编辑
摘要: 今天又发现一个Linux shell 命令——paste,之前没有用过,在此记录一下。 Linux paste命令用于合并文件的列。 paste指令会把每个文件以列对列的方式,一列列地加以合并。 语法 参数: -d<间隔字符>或--delimiters=<间隔字符> 用指定的间隔字符取代跳格字符。 阅读全文
posted @ 2018-08-09 17:05 吹胡子爷爷 阅读(320) 评论(0) 推荐(0) 编辑