CCF/CSP认证-第33次-相似度计算

1.题目

题目背景

两个集合的 Jaccard 相似度定义为：
$S i m (A, B) = \frac{| A \cap B |}{| A \cup B |}$

$即交集的大小除以并集的大小。当集合 A 和 B 完全相同时, S i m (A, B) = 1 取得最大值;当二者交集为空时, S i m (A, B) = 0 取得最小值。$

题目描述

输入格式

从标准输入读入数据。

输入共三行。

输入的第一行包含两个正整数 $n$ 和 $m$ ,分别表示两篇文章的单词个数。
第二行包含空格分隔的 $n$ 个单词，表示第一篇文章；第三行包含空格分隔的 $m$ 个单词，表示第二篇文章。

输出格式

输出到标准输出。

输出共两行。

第一行输出一个整数 $| A \cap B |$ ,即有多少个不同的单词同时出现在两篇文章中；
第二行输出一个整数 $| A \cup B |$ ,即两篇文章一共包含了多少个不同的单词。

样例1

样例1输入

3 2
The tHe thE
the THE

样例1输出

1
1

样例1解释

A = B = A \cap B = A \cup B = {the}

样例2

样例2输入

9 7
Par les soirs bleus dete jirai dans les sentiers
PICOTE PAR LES BLES FOULER LHERBE MENUE

样例2输出

2
13

样例2解释

$A =$ {bleus, dans, dete, jirai, les, par, sentiers, soirs} $| A | = 8$
$B =$ {bles, fouler, les, lherbe, menue, par, picote} $| B | = 7$
$A \cap B = {$ les, par $} ∣ A \cap B ∣= 2$

样例3

样例3输入

15 15
Thou that art now the worlds fresh ornament And only herald to the gaudy spring
Shall I compare thee to a summers day Thou art more lovely and more temperate

样例3输出

4
24

子任务

$80 %$ 的测试数据满足： $n, m \leq 100$ 且所有字母均为小写；
全部的测试数据满足： $n, m \leq 10^{4}$ 且每个单词最多包含 10 个字母。

2.题解

2.1

思路

看题解即可理解

代码

#include<bits/stdc++.h>
using namespace std;

int main() {
    int n, m;
    int allCnt = 0, commonCnt = 0;;
    cin >> n >> m;

    // 记录第一篇文章中的不重复元素
    unordered_set<string> uset;
    for(int i = 0; i < n; i++){
        // 处理字符串--小写化
        string str;
        cin >>  str;
        for(char &ch : str){
            ch = tolower(static_cast<unsigned char>(ch));
        }
        // 如果出现不重复元素，总个数+1
        if(!uset.count(str)){
            uset.emplace(str);
            allCnt++;
        }
    }
    
    // 记录第二篇文章中的不重复元素
    unordered_set<string> st;
    for(int i = 0; i < m; i++){
        // 处理字符串--小写化
    	string str;
    	cin >> str;
    	for(char &ch : str){
            ch = tolower(static_cast<unsigned char>(ch));
        }
        
        // 计算两篇文章重复元素个数，但是同一元素不可多次重复！！！ 
        if(uset.count(str) && !st.count(str)){
        	commonCnt++;
		}
		st.emplace(str); // 记录元素，set并不记录重复元素
		
	}
    // 总个数 += 第二篇文章不重复元素个数 - 与第一篇文章重复元素个数（即第二篇文章独有的元素（且非重复））
	allCnt += st.size() - commonCnt; 
	cout << commonCnt << endl << allCnt;
}

2.2 使用现成函数

思路

先分别求出两个字符串的字符串集合，然后使用set_intersection 和 set_union 分别求交集和并集即可。
set_intersection(setA.begin(), setA.end(), setB.begin(), setB.end(), inserter(intersection, intersection.begin()));
set_union(setA.begin(), setA.end(), setB.begin(), setB.end(), inserter(unionSet, unionSet.begin()));

代码

#include <iostream>
#include <sstream>
#include <set>
#include <string>
#include <algorithm>
using namespace std;

// 小写化字符串 
string toLowerCase(const string &str) {
    string result = str;
    transform(result.begin(), result.end(), result.begin(), ::tolower);
    return result;
}

set<string> extractWords(const string &text) {
    set<string> words;
    stringstream ss(text);
    string word;
	// 提取字符串到set集合中 
    while (ss >> word) {
        words.insert(toLowerCase(word));
    }

    return words;
}

int main() {
    string text1, text2;
	int n, m;
	cin >> n >> m;
	cin.ignore(); 
    getline(cin, text1);
    getline(cin, text2);
    
    // 解析字符串
    set<string> setA = extractWords(text1);
    set<string> setB = extractWords(text2);
    
    // 求集合交集
    set<string> intersection;
    set_intersection(setA.begin(), setA.end(), setB.begin(), setB.end(), inserter(intersection, intersection.begin()));
    
    // 求集合并集
    set<string> unionSet;
    set_union(setA.begin(), setA.end(), setB.begin(), setB.end(), inserter(unionSet, unionSet.begin()));

    cout << intersection.size() << endl;
    cout << unionSet.size() << endl;

    return 0;
}

posted @ 2024-05-24 02:53 DawnTraveler 阅读(362) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· P1957 口算练习题

· CCF/CSP认证-第一次-命令行选项

· 【csp202403-2】相似度计算【第33次CCF计算机软件能力认证】

· 【csp202403-2】相似度计算【第33次CCF计算机软件能力认证】——HNU程设第十三周小班考试压轴

· Day9 备战CCF-CSP练习

阅读排行：
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单！
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· Trae初体验

公告

昵称： DawnTraveler
园龄： 2年3个月
粉丝： 13
关注： 3

+加关注

2025年2月

日

一

二

三

四

五

六

TechNeko Workshop

CCF/CSP认证-第33次-相似度计算

1.题目

题目背景

题目描述

输入格式

输出格式

样例1

样例1输入

样例1输出

样例1解释

样例2

样例2输入

样例2输出

样例2解释

样例3

样例3输入

样例3输出

子任务

2.题解

2.1

思路

代码

2.2 使用现成函数

思路

代码

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论