N3、调用Gensim库训练Word2Vec模型

🍨 本文为🔗365天深度学习训练营中的学习记录博客

🍖 原作者：K同学啊 | 接辅导、项目定制

📌 本周任务： ● 阅读NLP基础知识里Word2vec详解一文，了解并学习Word2vec相关知识 ● 学习本文内容，在下一篇文章中，将使用Word2vec辅助完成文本分类任务

数据集：https://www.yuque.com/preview/yuque/0/2023/txt/3012063/1682746002951-dc3905cd-88ff-4a80-9bb6-a43b6d77229b.txt?from=https%3A%2F%2Fwww.yuque.com%2Fmingtian-fkmxf%2Fhv4lcq%2Fpi9ruktnc8oe41xa

一、准备工作¶

1、安装Gensim库¶

使用pip进行安装：

In [1]:

# !pip install gensim

2. 对原始语料分词¶

选择《人民的名义》的小说原文作为语料，先采用jieba进行分词

In [2]:

import jieba
import jieba.analyse
 
jieba.suggest_freq('沙瑞金', True) # 加入一些词，使得jieba分词准确率更高
jieba.suggest_freq('田国富', True)
jieba.suggest_freq('高育良', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('钟小艾', True)
jieba.suggest_freq('陈岩石', True)
jieba.suggest_freq('欧阳菁', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('蔡成功', True)
jieba.suggest_freq('孙连城', True)
jieba.suggest_freq('季昌明', True)
jieba.suggest_freq('丁义珍', True)
jieba.suggest_freq('郑西坡', True)
jieba.suggest_freq('赵东来', True)
jieba.suggest_freq('高小琴', True)
jieba.suggest_freq('赵瑞龙', True)
jieba.suggest_freq('林华华', True)
jieba.suggest_freq('陆亦可', True)
jieba.suggest_freq('刘新建', True)
jieba.suggest_freq('刘庆祝', True)
jieba.suggest_freq('赵德汉', True)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\CAUWJ\AppData\Local\Temp\jieba.cache
Loading model cost 0.387 seconds.
Prefix dict has been built successfully.

Out[2]:

In [3]:

with open('./data/in_the_name_of_people.txt', encoding='utf-8') as f:
    result_cut = []
    lines = f.readlines()
    for line in lines:
        result_cut.append(list(jieba.cut(line)))
f.close()

错误的意思是：Unicode的解码（Decode）出现错误（Error）了，以gbk编码的方式去解码（该字符串变成Unicode），但是此处通过gbk的方式，却无法解码（can’t decode ）。“illegal multibyte sequence”意思是非法的多字节序列，即没法（解码）了。

拿到了分词后的文件，在一般的NLP处理中，会需要去停用词。由于word2vec的算法依赖于上下文，而上下文有可能就是停词。因此对于word2vec，我们可以不用去停词，仅仅去掉一些标点符号，做一个简单的数据清洗。

In [4]:

# 添加自定义停用词
stopwords_list = ["，","。","\n","\u3000"," ","：","！","？","…"]
def remove_stopwords(ls):  # 去除停用词
    return [word for word in ls if word not in stopwords_list]

# 去除标点符号
result_stop=[remove_stopwords(x) for x in result_cut if remove_stopwords(x)]
print(result_stop[100:103])

[['侯亮平', '也', '很', '幽默', '一把', '抓住', '了', '赵德汉', '的', '手', '哎', '赵', '处长', '我', '既', '来', '了', '还', '真', '舍不得', '和', '你', '马上', '就', '分手', '哩', '咱们', '去', '下', '一个点', '吧', '说', '罢', '从', '赵家', '桌上', '杂物', '筐', '里', '准确', '地', '拿出', '一张', '白色', '门卡', '插到', '了', '赵德汉', '的', '上衣', '口袋', '里'], ['赵德汉', '慌', '了', '忙', '把门', '卡往', '外', '掏', '这', '这', '什么', '呀', '这', '是'], ['你', '帝京', '苑', '豪宅', '的', '门', '卡', '啊', '请', '继续', '配合', '我们', '执行公务', '吧']]

直接读分词后的文件到内存。这里使用了word2vec提供的LineSentence类来读文件，然后套用word2vec的模型。在实际应用中，可以调参提高词的embedding的效果。

二、训练Word2Vec模型¶

In [5]:

from gensim.models import Word2Vec

model = Word2Vec(result_stop,     # 用于训练的语料数据
                 vector_size=100, # 是指特征向量的维度，默认为100。
                 window=5,        # 一个句子中当前单词和被预测单词的最大距离。
                 min_count=1)   # 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5。

三、模型应用¶

1.计算词汇相似度:使用similarity()方法计算两个词汇之间的余弦相似度。¶

In [6]:

# 计算两个词的相似度
print(model.wv.similarity('沙瑞金', '季昌明'))
print(model.wv.similarity('沙瑞金', '田国富'))

0.99945605
0.9994731

In [7]:

# 选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'], topn=5):
    print(e[0], e[1])

这位 0.9998623132705688
做 0.9998152852058411
李达康 0.9997938275337219
这样 0.9997850656509399
才 0.9997793436050415

2. 找出不匹配的词汇:使用doesnt_match()方法，我们可以找到一组词汇中与其他词汇不匹配的词汇。¶

In [8]:

odd_word = model.wv.doesnt_match(["苹果", "香蕉", "橙子", "书"])
print(f"在这组词汇中不匹配的词汇：{odd_word}")

在这组词汇中不匹配的词汇：书

3. 计算词汇的词频:使用get_vecattr()方法获取¶

In [9]:

word_frequency = model.wv.get_vecattr("沙瑞金", "count")
print(f"沙瑞金：{word_frequency}")

沙瑞金：353

posted @ 2023-05-12 14:21 CASTWJ 阅读(64) 评论(0) 编辑收藏举报

刷新页面返回顶部

cauwj