[Linux] 大数据库导出大文件统计并去重

1. 把数据库表导出到文本文件中

mysql -h主机 -P端口 -u用户 -p密码 -A 数据库 -e "select email,domain,time from ent_login_01_000" > ent_login_01_000.txt

总共要统计最近3个月的登陆用户 , 按月份分表,并且每月有128张表 , 全部导出到文件中 , 总共有80G

2. grep 查出所有的2018-12 2019-01 2019-02

3.使用awk sort 和 uniq 只取出前面的用户 , 并且先去一下重复行

cat 2019-02.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/phpdev/187_test/tmp/|uniq > 2019-02-awk-sort-uniq.txt

cat 2019-01.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/phpdev/187_test/tmp/|uniq > 2019-01-awk-sort-uniq.txt

cat 2018-12.txt|awk -F " " '{print $1"@"$2}'|sort -T /mnt/public/phpdev/187_test/tmp/|uniq > 2018-12-awk-sort-uniq.txt

uniq 只去除连续的重复行 , sort可以把行排成连续的 -T是因为默认占用/tmp的临时目录 , 根目录我的不够用了,因此改一下临时目录

这几个文件占用了100多G

posted @ 2019-02-28 20:00 唯一客服系统开发笔记阅读(839) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

历史上的今天：
2016-02-28 [android] 保存文件到手机内存
2016-02-28 [android] logcat简介

公告

❤️我的技能❤️

前端 (WEB/小程序)开发

后端（PHP/GO）开发

移动端（Android）开发

服务端（Linux）开发

工作：13年到24年

jiantou

❤️我的作品❤️

官网地址：
唯一在线客服系统

友情链接：

昵称：唯一客服系统开发笔记
园龄： 10年
粉丝： 211
关注： 18

+加关注

2025年3月

日

一

二

三

四

五

六

合集 (1)

唯一客服系统文档中心(32)

随笔档案 (2210)

文章分类 (16)

面试经验(16)

[Linux] 大数据库导出大文件统计并去重

十年开发经验程序员，离职全心创业中，历时三年开发出的产品《唯一客服系统》

公告

官网地址：
唯一在线客服系统

搜索

常用链接

我的标签

积分与排名

合集 (1)

随笔档案 (2210)

文章分类 (16)

文章档案 (21)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

[Linux] 大数据库导出大文件统计并去重

公告

官网地址： 唯一在线客服系统

搜索

常用链接

我的标签

积分与排名

合集 (1)

随笔档案 (2210)

文章分类 (16)

文章档案 (21)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

官网地址：
唯一在线客服系统