2020 年 10月随笔档案 - 今夜无风

Java 版本tensorflow模型推理实现（基于bert命名实体、基于transform文本分类）

摘要：最近在做文本分类任务，由于在实际工程中需要用服务对外提供功能，故采用java调用pb模型完成推理，特将过程记录如下： 1. transform文本分类 package com.techwolf.transformer; import com.alibaba.fastjson.*; import co 阅读全文

posted @ 2020-10-30 17:30 今夜无风阅读(2116) 评论(2) 推荐(0) 编辑

bert文本分类模型保存为savedmodel方式

摘要：默认bert是ckpt，在进行后期优化和部署时，savedmodel方式更加友好写。 train完成后，调用如下函数： def save_savedmodel(estimator, serving_dir, seq_length, is_tpu_estimator): feature_map = { 阅读全文

posted @ 2020-10-28 18:26 今夜无风阅读(1917) 评论(1) 推荐(1) 编辑

修正数据到json格式

摘要：def test(): file_path = r'./data/0914/position_predict_100.txt' save_path = r'./data/0914/position_predict_100.json' save_dict = {} with open(file_pat 阅读全文

posted @ 2020-10-27 13:41 今夜无风阅读(321) 评论(0) 推荐(0) 编辑

实际应用中的词向量维度使用注意

摘要：nlp业务中，无可避免地要使用词向量做特征构建，维度过大导致计算量复杂，在百万级数据处理中速度非常慢，为了权衡工程需要，我们要根据实际情况做选取。我对比了不同纬度在使用上的效果，确定一个合理的范围，供大家根据自己的业务操作。 wv.most_similar(['主管'], topn=30) dim= 阅读全文

posted @ 2020-10-23 20:22 今夜无风阅读(260) 评论(0) 推荐(0) 编辑

找出一组数据中重复数据

摘要：使用pandas df = pd.read_csv(file_path, sep='\t', header=None) a = df.drop_duplicates(subset=[0], keep='first') b = df.drop_duplicates(subset=[0], keep=F 阅读全文

posted @ 2020-10-23 16:05 今夜无风阅读(218) 评论(0) 推荐(0) 编辑

快速进行词向量训练和读取

摘要：1.词向量训练demo from gensim.models import Word2Vec from gensim.test.utils import common_texts import jieba import tqdm word2vec_path = './resources/word2v 阅读全文

posted @ 2020-10-22 13:05 今夜无风阅读(423) 评论(0) 推荐(0) 编辑

多线程提速

摘要：对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu 阅读全文

posted @ 2020-10-22 12:35 今夜无风阅读(242) 评论(0) 推荐(0) 编辑

多进程提速

摘要：方式一：multiprocessing.Process def worker(procnum, return_dict): '''worker function''' print str(procnum) + ' represent!' return_dict[procnum] = procnum 阅读全文

posted @ 2020-10-22 12:34 今夜无风阅读(190) 评论(0) 推荐(0) 编辑

采用tfrecord形式读写训练数据

摘要：tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件，能更好的利用内存，在tensorflow中快速的复制，移动，读取，存储等。尤其在面对海量数据时，使用常用的内存读取方式变得不切实际，tfrecored方式为我们带来了更大的便捷，同时还可以配合shuffe大大提高model的trai 阅读全文

posted @ 2020-10-09 21:56 今夜无风阅读(374) 评论(0) 推荐(0) 编辑

10 2020 档案

公告