Fork me on GitHub
摘要: 运营提了个导数据的需求,需要把某段时间登陆用户id导出来,由于数据量大,分了多个文件保存。数据保存格式,每一行一个用户id。刚开始打算用数据,由于数据量大,就放弃了,存数据库去重,取数据交集差集比较方便,比如在A时间登陆了B时间没有登陆的用户(差集)。Linux下有操作文件的命令,而且功能也很强大。下面是我的备注(经我整理,来源于互联网): ls ./lc* | xargs -t -i sort {} -o {} 当前目录以lc开头的文件批量排序,结果保存到原文件中 ls ./lc* | xargs -t -i uniq {} ./uniq/{} 当前目录以lc开头的文件批量去重,结果保存到与 阅读全文
posted @ 2012-11-14 13:53 huan&ping 阅读(4255) 评论(0) 推荐(0) 编辑