Fork me on Gitee

pyTorch 导入预训练词向量 2023

Copy
# 测试 Embedding import torch import gensim import torch.nn as nn wvmodel = gensim.models.KeyedVectors.load_word2vec_format("./data/vector.txt",binary=False,encoding='utf-8') # 需要在字典的位置加上1是需要给UNK添加一个位置 vocab_size=len(wvmodel)+1 vector_size=wvmodel.vector_size # 随机生成weight weight = torch.randn(vocab_size, vector_size) words=wvmodel.key_to_index word_to_idx = {word: i+1 for i, word in enumerate(words)} # 定义了一个unknown的词. word_to_idx['<unk>'] = 0 idx_to_word = {i+1: word for i, word in enumerate(words)} idx_to_word[0] = '<unk>' for i in range(len(wvmodel.index_to_key)): try: index = word_to_idx[wvmodel.index_to_key[i]] except: continue vector=wvmodel.get_vector(idx_to_word[word_to_idx[wvmodel.index_to_key[i]]]) weight[index, :] = torch.from_numpy(vector) embedding = nn.Embedding.from_pretrained(weight,freeze=True) embedding


Copy
感谢您的阅读,如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮。本文欢迎各位转载,但是转载文章之后必须在文章页面中给出作者和原文连接
posted @   ---dgw博客  阅读(88)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
历史上的今天:
2018-03-24 三级网络技术备考
点击右上角即可分享
微信分享提示