随笔分类 - NLP
摘要:默认bert是ckpt,在进行后期优化和部署时,savedmodel方式更加友好写。 train完成后,调用如下函数: def save_savedmodel(estimator, serving_dir, seq_length, is_tpu_estimator): feature_map = {
阅读全文
摘要:def test(): file_path = r'./data/0914/position_predict_100.txt' save_path = r'./data/0914/position_predict_100.json' save_dict = {} with open(file_pat
阅读全文
摘要:nlp业务中,无可避免地要使用词向量做特征构建,维度过大导致计算量复杂,在百万级数据处理中速度非常慢,为了权衡工程需要,我们要根据实际情况做选取。我对比了不同纬度在使用上的效果,确定一个合理的范围,供大家根据自己的业务操作。 wv.most_similar(['主管'], topn=30) dim=
阅读全文
摘要:使用pandas df = pd.read_csv(file_path, sep='\t', header=None) a = df.drop_duplicates(subset=[0], keep='first') b = df.drop_duplicates(subset=[0], keep=F
阅读全文
摘要:1.词向量训练demo from gensim.models import Word2Vec from gensim.test.utils import common_texts import jieba import tqdm word2vec_path = './resources/word2v
阅读全文
摘要:对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu
阅读全文
摘要:方式一:multiprocessing.Process def worker(procnum, return_dict): '''worker function''' print str(procnum) + ' represent!' return_dict[procnum] = procnum
阅读全文
摘要:记录一个小的脚本 """ Function: extract the key info Author: dyx DateTime: 20200805 """ import pandas as pd current_file = r'./data/original.xlsx' to_save = r'
阅读全文
摘要:今天简单列举两个常用的采样方法:softmax采样和gamble采样。 在我们已知数据的概率分布后,想要根据已有的概率值,抽取出适合的数据。此时,就需要特定的采样函数拿数据。 简要代码如下: """ 采样方法 """ import numpy as np np.random.seed(1111) #
阅读全文
摘要:模型精简的流程如下:pretrian model -> retrain with new data(fine tuning) -> pruning -> retrain -> model 对bert进行层数剪枝,保留第一层和第十二层参数,再用领域数据微调。代码如下: """ test """ imp
阅读全文
摘要:资源一、Synonyms Synonyms 是一个中文近义词工具包,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然语言理解(NLP)任务。该工具包目前能搜索近义词和比较语句相似度等任务,且词汇量达到了 125,792。 该中文近义词工具包采用的
阅读全文
摘要:1.问题:写出一个算法,对给定的n个数的序列,返回序列中的最大和最小的数. 设计出一个算法,只需要执行1.5n次比较就能找到序列中最大和最小的数吗?能否再少? 解析:要求比较次数为1.5n,使用一般的逐个遍历每个元素然后判断其是否为最大最小值是需要2n次的比较的,所以这样的方法是行不通的。现在考虑采
阅读全文
摘要:对于要替换的词是随机选择的,因此一种直观感受是,如果一些重要词被替换了,那么增强后文本的质量会大打折扣。这一部分介绍的方法,则是为了尽量避免这一问题,所实现的词替换技术,姑且称之为「基于非核心词替换的数据增强技术」。 我们最早是在 google 提出 UDA 算法的那篇论文中发现的这一技术 [6],
阅读全文
摘要:原理 BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。 BM25算法的一般性公式如下: 其中,Q表示Qu
阅读全文
摘要:在过去的一年里,我和我的团队一直致力于为 Taboola feed 提供个性化用户体验。我们运用多任务学习(Multi-Task Learning,MTL),在相同的输入特征集上预测多个关键性能指标(Key Performance Indicator,KPI),然后使用 TensorFlow 实现深
阅读全文
摘要:近日,百度在该领域取得突破,提出业界首个融合场景图知识的多模态预训练模型 ERNIE-ViL。百度研究者将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本
阅读全文
摘要:A Python implementation of the Rapid Automatic Keyword Extraction (RAKE) algorithm as described in: Rose, S., Engel, D., Cramer, N., & Cowley, W. (201
阅读全文
摘要:3种常用的词向量训练方法的代码,包括Word2Vec, FastText, GloVe: https://github.com/liyumeng/DeepLearningPractice2017/blob/master/WordEmbedding/WordEmbedding.ipynb 词向量可视化
阅读全文
摘要:Extracting keywords from texts has become a challenge for individuals and organizations as the information grows in complexity and size. The need to a
阅读全文