【csp202403-1】词频统计【第33次CCF计算机软件能力认证】
问题描述
在学习了文本处理后,小P对英语书中的𝑛篇文章进行了初步整理。具体来说,小P将所有的英文单词都转化为了整数编号。假设这𝑛篇文章中共出现了𝑚个不同的单词,则把它们从1到𝑚进行编号。这样,每篇文章就简化为了一个整数序列,其中每个数都在1到𝑚范围内。
现给出小P处理后的𝑛篇文章,对于每个单词𝑖(1≤𝑖≤𝑚),试统计:
- 单词𝑖出现在了多少篇文章中?
- 单词𝑖在全部文章中总共出现了几次?
输入格式
从标准输入读入数据。
输入共𝑛+1行。
输入的第一行包含两个正整数𝑛和𝑚,分别表示文章篇数和单词编号上限。
输入的第𝑖+1行(1≤𝑖≤𝑛)包含由空格分隔的若干整数,其中第一个整数𝑙𝑖表示第𝑖篇文章的长度(单词个数);接下来𝑙𝑖个整数表示对应的整数序列,序列中每个整数均在1到𝑚范围内,各对应原文中的一个单词。
输出格式
输出到标准输出。
输出共𝑚行。
第𝑖i行(1≤𝑖≤𝑚)输出由空格分隔的两个整数𝑥𝑖和𝑦𝑖,表示共有𝑥𝑖篇文章包含单词𝑖,总计出现次数为𝑦𝑖。
样例输入
4 3
5 1 2 3 2 1
1 1
3 2 2 2
2 3 2
样例输出
2 3
3 6
2 2
样例解释
单词2在:
- 文章1中出现两次;
- 文章3中出现三次;
- 文章4中出现一次。
因此𝑥2=3、𝑦2=6。
数据范围
全部的测试数据满足0<𝑛,𝑚≤100,且每篇文章至少包含一个单词、最多不超过100个单词(1≤𝑙𝑖≤100)。
题解
由于单词已经简化成数字,开两个普通数组分别统计两个问题即可。
对于第2个问题,单词在全部文章中出现的次数,开一个数组计数器,单词每出现一次,计数器加一
对于第1个问题,由于数据范围较小,可以开一个二维数组,vis[i][j]表示在第i篇文章中单词j是否出现过,最后遍历一遍统计每一篇文章中出现过的单词数
1 #include <cstdio> 2 int n,m,l[105],cnt[105]; 3 bool vis[105][105]; 4 int main() 5 { 6 int i,j,x; 7 scanf("%d%d",&n,&m); 8 for (i=1;i<=n;i++) 9 { 10 scanf("%d",&l[i]); 11 for (j=1;j<=l[i];j++) 12 { 13 scanf("%d",&x); 14 cnt[x]++; 15 vis[i][x]=1; 16 } 17 } 18 int s; 19 for (i=1;i<=m;i++) 20 { 21 s=0; 22 for (j=1;j<=n;j++) 23 if (vis[j][i]) 24 s++; 25 printf("%d %d\n",s,cnt[i]); 26 } 27 return 0; 28 }