leetcode192 词频统计bash

假设 words.txt 内容如下：

the day is sunny the the
the sunny is is

你的脚本应当输出（以词频降序排列）：

the 4
is 3
sunny 2
day 1

你需要使用一行unix pipes实现

方法一：

awk '{for(i = 1;i <= NF;i++){++m[$i]}} END{for(k in m){print k" "m[k]}}'  words.txt | sort -nr  -k 2

awk默认逐行检索，默认以空格划分每条记录。

sort语法复习

方法二：

cat words.txt | tr -s ' ' '\n' | sort | uniq -c | sort -rn | awk '{print $2, $1}'

tr -s ' ' '\n' 是将所有连续的空格空行删除并保证每一行只有一个字符串
sort | uniq -c 通常一起用来统计重复出现的次数。

方法三：

我们也可以用awk来去除空行并使得每行只有一个字符，

并利用awk打印

awk '{i=1;while(i<=NF){print $i;i++}}' words.txt | sort | uniq -c | sort -rn | awk '{print $2, $1}'

参考链接：

posted @ 2020-04-18 17:32 Rogn 阅读(306) 评论(0) 收藏举报

刷新页面返回顶部

Rogn