今夜无风 - 博客园

2020年10月

摘要：方式一：multiprocessing.Process def worker(procnum, return_dict): '''worker function''' print str(procnum) + ' represent!' return_dict[procnum] = procnum 阅读全文

posted @ 2020-10-22 12:34 今夜无风阅读(190) 评论(0) 推荐(0) 编辑

采用tfrecord形式读写训练数据

摘要： tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件，能更好的利用内存，在tensorflow中快速的复制，移动，读取，存储等。尤其在面对海量数据时，使用常用的内存读取方式变得不切实际，tfrecored方式为我们带来了更大的便捷，同时还可以配合shuffe大大提高model的trai 阅读全文

posted @ 2020-10-09 21:56 今夜无风阅读(370) 评论(0) 推荐(0) 编辑

2020年9月

分布式TensorFlow集群local server使用详解

摘要：简介 TensorFlow从0.8版本开始，支持分布式集群，并且自带了local server方便测试。 Local server和分布式服务的接口一样，我们将从local server入手，详细解读分布式机器学习集群的用法。 Local server的最简单用法 TensorFlow官方文档提阅读全文

posted @ 2020-09-24 21:20 今夜无风阅读(338) 评论(0) 推荐(0) 编辑

Bert tensorflow 版本的线上预测demo

摘要：在模型上线预测时，使用pb格式模型，确定输入tensor和输出tensor，明确对应的节点即可。以下代码是最近做的ner模型的infer部分，大家可以参照修改自己的模型 import tensorflow as tf import os import pickle from bert_crf imp 阅读全文

posted @ 2020-09-07 09:44 今夜无风阅读(759) 评论(4) 推荐(0) 编辑

2020年8月

关键信息读写脚本

摘要：记录一个小的脚本 """ Function: extract the key info Author: dyx DateTime: 20200805 """ import pandas as pd current_file = r'./data/original.xlsx' to_save = r' 阅读全文

posted @ 2020-08-05 15:11 今夜无风阅读(151) 评论(0) 推荐(0) 编辑

2020年7月

常用的采样方法

摘要：今天简单列举两个常用的采样方法：softmax采样和gamble采样。在我们已知数据的概率分布后，想要根据已有的概率值，抽取出适合的数据。此时，就需要特定的采样函数拿数据。简要代码如下： """ 采样方法 """ import numpy as np np.random.seed(1111) # 阅读全文

posted @ 2020-07-27 13:50 今夜无风阅读(1393) 评论(0) 推荐(0) 编辑

Bert层数剪枝

摘要：模型精简的流程如下：pretrian model -> retrain with new data(fine tuning) -> pruning -> retrain -> model 对bert进行层数剪枝，保留第一层和第十二层参数，再用领域数据微调。代码如下： """ test """ imp 阅读全文

posted @ 2020-07-24 16:45 今夜无风阅读(1163) 评论(2) 推荐(0) 编辑

中文语义词库

摘要：资源一、Synonyms Synonyms 是一个中文近义词工具包，它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然语言理解(NLP)任务。该工具包目前能搜索近义词和比较语句相似度等任务，且词汇量达到了 125,792。该中文近义词工具包采用的阅读全文

posted @ 2020-07-22 10:06 今夜无风阅读(972) 评论(0) 推荐(0) 编辑

笔试题&面试题

摘要： 1.问题：写出一个算法,对给定的n个数的序列,返回序列中的最大和最小的数. 设计出一个算法,只需要执行1.5n次比较就能找到序列中最大和最小的数吗？能否再少？解析：要求比较次数为1.5n，使用一般的逐个遍历每个元素然后判断其是否为最大最小值是需要2n次的比较的，所以这样的方法是行不通的。现在考虑采阅读全文

posted @ 2020-07-17 21:07 今夜无风阅读(162) 评论(0) 推荐(0) 编辑

一种数据增强方法-非核心词替换

摘要：对于要替换的词是随机选择的，因此一种直观感受是，如果一些重要词被替换了，那么增强后文本的质量会大打折扣。这一部分介绍的方法，则是为了尽量避免这一问题，所实现的词替换技术，姑且称之为「基于非核心词替换的数据增强技术」。我们最早是在 google 提出 UDA 算法的那篇论文中发现的这一技术 [6]，阅读全文

posted @ 2020-07-16 17:32 今夜无风阅读(861) 评论(0) 推荐(1) 编辑

公告