使用余弦相似度记录相似度
使用余弦相似度记录相似度
在这里,我认为 8 个文本文档是一组与三个 3 个不同的新闻主题相关的新闻文章,即飓风吉尔伯特前往多米尼加海岸、爱尔兰共和军恐怖袭击和麦当劳在中国开设第一家餐厅。
因此,我计划确定文档相似性;在此文档集合中,两个或多个文档彼此相关的相似程度。
余弦相似度
余弦相似度是量化两个或多个向量之间相似度的度量。余弦相似度是向量之间夹角的余弦值。这些向量通常是非零的并且在一个内积空间内。
余弦相似度在数学上被描述为向量的点积与每个向量的欧几里得范数或大小的乘积之间的除法。
Cosine Similarity
第一步是预处理 8 个文档中的数据。
- 去除停用词。 (这些是任何语言中最常见的词(如冠词、介词、代词、连词等),不会为文本添加太多信息。)
- 删除数字和特殊字符。 (此外,您可以将数字转换为“num”,然后继续)
- 将文档中的所有字母转换为小写字母。
TfidfVectorizer
将文本转换为可用作估计器输入的特征向量。词汇表是一个字典,它将每个标记(单词)转换为矩阵中的一个特征索引,每个唯一的标记得到一个特征索引。
Importing the Libraries
Uploading Files
现在,我们可以通过以下方式定义文档。
Reading the files
接下来,将原始文档的集合转换为 TF-IDF 特征矩阵。
Cosine Similarities
根据余弦相似度,第 1 条与第 8 条最相似。第 2,3 和 7 条彼此最相似。第 4、5、6 条彼此最为相似。
让我们稍后再见面另一个有趣的话题!
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明