Linux 文本处理工具记录

Shuffle lines of multi files

现在有 1000 个文本文件(0.txt ~ 999.txt),每个文件大概 11M,总共 11G,我想把这 1000 个文本文件的内容随机组合成一个文件。

cat *.txt | shuf > random试了下,大概第 8 秒内存占用就达到 96%,然后就不再上涨了,最后大概用了 55 秒完成,要求也完美达成。


输出第n到m个词

一个文本文件,可能有多行,每行有多个单词,单词通过空格分隔,现希望输出第 100 到第 500 ([100,500],闭区间) 个词。

tr '\n' ' ' < inputfile | cut -d' ' -f 100-500 > outputfile


edgelist 转 csv

将 edgelist 文件转换为 csv 文件,即在文件头添加 "source,target",且将空格替换为逗号

sed -e '1i source,target' -e 's/ /,/g' test.edgelist > test.csv

awk 'BEGIN{print "source,target"}{print $1","$2}' test.edgelist > test.csv


表格化输出

column -t -s ',' result.csv


集合操作

comm 输入两个排序后的文件,输出三列,第一列仅出现在第一个文件中,第二列仅出现在第二个文件中,第三列在两文件中都有
参数 123 控制不输出哪些列
交集 comm -12 <(sort test|uniq) <(sort test1|uniq) comm -12 <(ls) <(ls|head)
差集1 comm -13 <(sort test|uniq) <(sort test1|uniq) comm -13 <(ls) <(ls|head) 出现在第二项中而不出现在第一项中
差集2 comm -23 <(sort test|uniq) <(sort test1|uniq) comm -23 <(ls) <(ls|head) 出现在第一项中而不出现在第二项中
并集 cat test test1 |sort|uniq

posted @ 2019-01-07 17:45  maxuewei2  阅读(258)  评论(0编辑  收藏  举报
这是一段经过10次base64加密的密文:Vm0wd2VFMUhSblJXYTFwT1ZsWndUMVV3WkRSV2JHeDBZM3BHYUZKc1ZqTldiVEZIVjBaS2RHVkVRbFZXYkhCUVdWWlZlRll5U2tWVWJHUk9ZV3hhVFZkWGRHRlRNazE1Vkd0YVlWSnRhRzlVVnpGdlZWWmFjMWt6YUZOTlJGWjZWakkxVDJGc1NuTmpTRUpXWWxoU00xWkdXbUZqYkhCRlZXeHdWMkV5ZHpCV2FrbzBZekpHYzFOWVpGaGlSa3BoV1ZSS2IxSkdWbk5YYlVacVlraENSbFpYZUhkV01rVjZVV3BhVjJKVVFYaFdha1poWkVaT2MySkdTbWxXUjNoWFZtMTBWMWxXVWtkV1dHaFlZbGhTV0ZSV1pGTk5SbFowVFZoa1ZXSkdiRFJWTW5oelZqSktTRlJZYUZkV1JYQk1WV3BHVDJNeFduUmlSazVzWWxob2IxWXhXbE5TTWxGNFZXdGthbEp0YUhOVk1GVXhWMFpTV0dSSFJsTk5WMUo1VmpKek5WWXdNVVZTYTNCV1ZqTlJkMVpxUm1GU2JHUnpWV3hhVjFKV2NIbFhhMVpoVkRKTmVWTnJhR2hTYkVwVVZGUktiMWRXV25KWGJVWmFWbXN4TlZaSE5VOWhiRXBZVlcxb1ZtSkhhRlJXTVZwWFl6RldkVlJzYUZOaVNFRjNWa1phYjFReFdYaFRia3BxVW01Q1YxWnVjRUpOVmxweFVWaG9hbFpyV25oV1IzaFhWakpLVjFOc2JGZGlXRUpJVmxSR2ExZEdUbkphUmxwcFZqTm9kbFpHVWtOVE1EVlhWMjVTVGxaR1NuQlVWM1J6VGtaYVdFNVZPV2hpUlhCWldWVmFRMVl5Um5KVGJXaFhZa1p3ZWxsNlJtdGtSa3B5VGxaT2FXRXdjRmxXTVZwWFlUQXhTRkpyWkZoaVJscFVXVlJPUTFsV1duTlhhM1JUVW14c05WUldWakJXTVZwelkwaHNWMVl6YUZoWlZscGhVbXhrY21GR2FHbFNNVVYzVjFaU1MxVXhUa2RUYmtwaFVteGFjRlZzVWxkbGJHUllaRWRHYWsxRVZraFdNalZQVm0xRmVWVnVRbFZXYlZFd1ZqRmFZVkl5UmtsVWJGcE9ZVE5DU1ZkVVFtOVVNVnAwVTJ0a2FsSXlhR0ZVVlZwM1ZrWmFjMWRyZEd0V2F6VXdXbFZhVDJGV1pFaGFSRTVYWVRGd1dGbHFTa3BsVms1eVdrWm9XRkl4U2xGV2FrSnZVVEZzVjFkdVRtRlNlbXhYVlcweE5GWXhXWGxrUkVKVlRXdHdWMWt3Vm05WGF6RkhZMFJPV2xaV1ZqUmFSV1JIVW1zeFYyRkhiRk5pYTBvMVZteG9kMU14VlhoVWEyUlhZbXR3V0ZsclZURmpSbHB4VkcwNVZsSnRVbGhXVjNSM1ZERmFWVlpzYUZoaE1taE1WMVphUzFKc1RuVlNiRlpYVm10d1dWWkdWbUZXYlZaSVVtdHNZVkp0VWxSWmEyaERVMFphU0dWSGRHbE5WMUl3VlRKMGIyRkdUa2RqUmxwWFlsaG9NMVl3V2xOa1IxWkdUMWQwVTFaR1dscFhiRlpyWXpGYVIxTnNXbXBTVjJoWVdXeG9VMk5XY0ZaYVJrcHNWbXR3V2xsVldtOVhSa2w0VTI1b1YxWXpVbGhWZWtaaFl6RldjMXBHYUdoTk1VcFZWbGN3ZUZVeFpFZFhXR3hzVWpOU1ZsUlhkSGRUUm10M1lVYzVWMkpHYkRaWlZWSlBWakZKZWxScVVtRlNiSEJVVmpGa1IxSXlSa2RhUjJ4VVVsVndNbFpxUm05a01VbDVVbGhvV0ZkSGFGaFpiWGhoVmpGc2MyRkdUbXBOVjNoV1ZXMDFhMVpzV25OalJFSlZWbGRvZGxadGMzaGpiR1J5WVVaa1YyVnNXbFZYVmxKSFV6RktjMVJ1VmxOaVJuQndWakJhUzJJeFduTlZhMlJYVFZWc05GWnRlSE5aVmtweVYyeGtWMkV4U2tOVWJFVTVVRkU5UFE9PQ==