摘要: 源日志文件:user_register1.log2017-07-04 02:45:20,1009_10131009201707040245135462341,1,864331035121676,112.28.165.54 2017-07-04 02:49:16,1043_10131043201707040249157342004,1,862490034832444,218.18.37.15 201... 阅读全文
posted @ 2017-07-05 19:01 edgedance 阅读(968) 评论(0) 推荐(0) 编辑
摘要: 1. 取出两个文件的并集(重复的行只保留一份) cat file1 file2 | sort | uniq 2. 取出两个文件的交集(只留下同时存在于两个文件中的文件) cat file1 file2 | sort | uniq -d 3. 删除交集,留下其他的行 cat file1 file2 | sort | uniq -u 如果需要计数也有一个... 阅读全文
posted @ 2017-07-05 17:43 edgedance 阅读(815) 评论(0) 推荐(0) 编辑
摘要: 先说结论:使用内存映射文件来处理大文件可以提高效率。 为什么呢?我们先来看看如果不使用内存映射文件的处理流程是怎样的,首先我们得先读出磁盘文件的内容到内存中,然后修改,最后回写到磁盘上。第一步读磁盘文件是要经过一次系统调用的,它首先将文件内容从磁盘拷贝到内核空间的一个缓冲区,然后再将这些数据拷贝到用户空间,实际上是两次数据拷贝。第三步回写也一样也要经过两次数据拷贝。所以我们基本上会有四次数据的拷贝... 阅读全文
posted @ 2017-07-05 10:34 edgedance 阅读(837) 评论(0) 推荐(0) 编辑