10 2020 档案
摘要:最近在做文本分类任务,由于在实际工程中需要用服务对外提供功能,故采用java调用pb模型完成推理,特将过程记录如下: 1. transform文本分类 package com.techwolf.transformer; import com.alibaba.fastjson.*; import co
阅读全文
摘要:默认bert是ckpt,在进行后期优化和部署时,savedmodel方式更加友好写。 train完成后,调用如下函数: def save_savedmodel(estimator, serving_dir, seq_length, is_tpu_estimator): feature_map = {
阅读全文
摘要:def test(): file_path = r'./data/0914/position_predict_100.txt' save_path = r'./data/0914/position_predict_100.json' save_dict = {} with open(file_pat
阅读全文
摘要:nlp业务中,无可避免地要使用词向量做特征构建,维度过大导致计算量复杂,在百万级数据处理中速度非常慢,为了权衡工程需要,我们要根据实际情况做选取。我对比了不同纬度在使用上的效果,确定一个合理的范围,供大家根据自己的业务操作。 wv.most_similar(['主管'], topn=30) dim=
阅读全文
摘要:使用pandas df = pd.read_csv(file_path, sep='\t', header=None) a = df.drop_duplicates(subset=[0], keep='first') b = df.drop_duplicates(subset=[0], keep=F
阅读全文
摘要:1.词向量训练demo from gensim.models import Word2Vec from gensim.test.utils import common_texts import jieba import tqdm word2vec_path = './resources/word2v
阅读全文
摘要:对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu
阅读全文
摘要:方式一:multiprocessing.Process def worker(procnum, return_dict): '''worker function''' print str(procnum) + ' represent!' return_dict[procnum] = procnum
阅读全文
摘要:tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件,能更好的利用内存,在tensorflow中快速的复制,移动,读取,存储等。尤其在面对海量数据时,使用常用的内存读取方式变得不切实际,tfrecored方式为我们带来了更大的便捷,同时还可以配合shuffe大大提高model的trai
阅读全文