paddlepaddle如何预加载embedding向量
使用小批量数据时,模型容易过拟合,所以需要对全量数据进行处理,我是用的是word2vec训练的词向量. 那么训练好对词向量如何加载呢?
#!/usr/bin/env python # -*- coding: utf-8 -*- """ ------------------------------------------------- Version : None File Name : paddle_load_w2v Description : None Author : gongxijun Email : date : 2019-12-04 ------------------------------------------------- Change Activity: 2019-12-04: ------------------------------------------------- """ from __future__ import absolute_import from __future__ import print_function from __future__ import unicode_literals __author__ = 'gongxijun' import paddle import paddle.fluid as fluid import paddle.fluid.layers as layers import paddle.fluid.nets as nets import numpy as np import math import codecs from huangdao.dataset import data_feeder def load_parameter(file_name): embeddings = [] words = [] with codecs.open(file_name, 'r',encoding="utf8") as f: header = f.readline() vocab_size, vector_size = map(int, header.split()) for line in range(vocab_size): word_list = f.readline().strip("\n").strip(" ").split(' ') word = word_list[0] vector = word_list[1:] words.append(word if len(word) > 0 else "unk") assert len(vector) == vector_size, "{} {}".format(len(vector), vector_size) embeddings.append(np.array(vector)) assert len(words) == len(embeddings) return words, embeddings word_dict_len = 74378 word_dim = 128 def get_embedding(name, shape, is_sparse=True, dtype='int64'): """ :param name: :param is_categorical: bool 是否是类标签 :param shape: must be (a,b) :param dtype: :param is_sparse: bool :return: """ alias_id = layers.data(name=name, shape=[1], dtype=dtype) assert len(shape) == 2, '{} must equal 2'.format(len(shape)) alias_emb = layers.embedding(input=alias_id, size=shape, param_attr=fluid.param_attr.ParamAttr(name="embedding_{}".format(name)), is_sparse=is_sparse) alias_fc = layers.fc(input=alias_emb, size=shape[1]) return alias_fc words_emb = get_embedding("words", shape=(word_dict_len, word_dim)) place = fluid.CPUPlace() exe = fluid.Executor(place) exe.run(fluid.default_startup_program()) embedding_param = fluid.global_scope().find_var( "embedding_words").get_tensor() words, embeddings = load_parameter("/Users/gongxijun/data/item2vec.txt") embedding_param.set(embeddings, place)
编程是一种快乐,享受代码带给我的乐趣!!!
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· [.NET]调用本地 Deepseek 模型
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· C++代码改造为UTF-8编码问题的总结
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
2014-12-05 MVC设计模式(持续更新中)
2014-12-05 JavaScript基础知识(1)