Python系列：NLP系列一：词袋模型及句子相似度、探究TF-IDF的原理、词形还原（Lemmatization）

这里写目录标题

一. NLP入门（一）词袋模型及句子相似度
二. NLP入门（二）探究TF-IDF的原理
三. NLP入门（三）词形还原（Lemmatization）

一. NLP入门（一）词袋模型及句子相似度

本文作为笔者NLP入门系列文章第一篇，以后我们就要步入NLP时代。
本文将会介绍NLP中常见的词袋模型（Bag of Words）以及如何利用词袋模型来计算句子间的相似度（余弦相似度，cosine similarity）。
首先，让我们来看一下，什么是词袋模型。我们以下面两个简单句子为例：

sent1 = "I love sky, I love sea."
sent2 = "I like running, I love reading."

通常，NLP无法一下子处理完整的段落或句子，因此，第一步往往是分句和分词。这里只有句子，因此我们只需要分词即可。对于英语句子，可以使用NLTK中的word_tokenize函数，对于中文句子，则可使用jie

posted @ 2024-01-17 08:25 坦笑&&life 阅读(17) 评论(0) 编辑收藏举报来源

刷新页面返回顶部