使用余弦相似度记录相似度

在这里，我认为 8 个文本文档是一组与三个 3 个不同的新闻主题相关的新闻文章，即飓风吉尔伯特前往多米尼加海岸、爱尔兰共和军恐怖袭击和麦当劳在中国开设第一家餐厅。

因此，我计划确定文档相似性；在此文档集合中，两个或多个文档彼此相关的相似程度。

余弦相似度

余弦相似度是量化两个或多个向量之间相似度的度量。余弦相似度是向量之间夹角的余弦值。这些向量通常是非零的并且在一个内积空间内。

余弦相似度在数学上被描述为向量的点积与每个向量的欧几里得范数或大小的乘积之间的除法。

Cosine Similarity

第一步是预处理 8 个文档中的数据。

将文本转换为可用作估计器输入的特征向量。词汇表是一个字典，它将每个标记（单词）转换为矩阵中的一个特征索引，每个唯一的标记得到一个特征索引。

Importing the Libraries

Uploading Files

现在，我们可以通过以下方式定义文档。

Reading the files

接下来，将原始文档的集合转换为 TF-IDF 特征矩阵。

Cosine Similarities

根据余弦相似度，第 1 条与第 8 条最相似。第 2,3 和 7 条彼此最相似。第 4、5、6 条彼此最为相似。

让我们稍后再见面另一个有趣的话题！

posted @ 2022-09-04 12:21 哈哈哈来了啊啊啊阅读(87) 评论(0) 收藏举报

刷新页面返回顶部