高效读取词向量的方法
当我们训练的词向量保存为txt时候,如果不是直接读取到内存,找对应词的向量,这样会非常耗时
方法1.用gensim读取成model的形式,从内存中获得数据
方法2.读取txt文件,用enumerate()将数据放到字典里面,后期查找的时候用这个字典,主要代码如下:
1 for i, line in enumerate(codecs.open(emb_path, 'r', 'utf-8')): 2 line = line.rstrip().split() 3 if len(line) == word_dim + 1: 4 pre_trained[line[0]] = np.array( 5 [float(x) for x in line[1:]] 6 ).astype(np.float32) 7 else: 8 emb_invalid += 1
时刻记着自己要成为什么样的人!