07 2020 档案

摘要:今天简单列举两个常用的采样方法:softmax采样和gamble采样。 在我们已知数据的概率分布后,想要根据已有的概率值,抽取出适合的数据。此时,就需要特定的采样函数拿数据。 简要代码如下: """ 采样方法 """ import numpy as np np.random.seed(1111) # 阅读全文
posted @ 2020-07-27 13:50 今夜无风 阅读(1367) 评论(0) 推荐(0) 编辑
摘要:模型精简的流程如下:pretrian model -> retrain with new data(fine tuning) -> pruning -> retrain -> model 对bert进行层数剪枝,保留第一层和第十二层参数,再用领域数据微调。代码如下: """ test """ imp 阅读全文
posted @ 2020-07-24 16:45 今夜无风 阅读(1146) 评论(2) 推荐(0) 编辑
摘要:资源一、Synonyms Synonyms 是一个中文近义词工具包,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然语言理解(NLP)任务。该工具包目前能搜索近义词和比较语句相似度等任务,且词汇量达到了 125,792。 该中文近义词工具包采用的 阅读全文
posted @ 2020-07-22 10:06 今夜无风 阅读(930) 评论(0) 推荐(0) 编辑
摘要:1.问题:写出一个算法,对给定的n个数的序列,返回序列中的最大和最小的数. 设计出一个算法,只需要执行1.5n次比较就能找到序列中最大和最小的数吗?能否再少? 解析:要求比较次数为1.5n,使用一般的逐个遍历每个元素然后判断其是否为最大最小值是需要2n次的比较的,所以这样的方法是行不通的。现在考虑采 阅读全文
posted @ 2020-07-17 21:07 今夜无风 阅读(160) 评论(0) 推荐(0) 编辑
摘要:对于要替换的词是随机选择的,因此一种直观感受是,如果一些重要词被替换了,那么增强后文本的质量会大打折扣。这一部分介绍的方法,则是为了尽量避免这一问题,所实现的词替换技术,姑且称之为「基于非核心词替换的数据增强技术」。 我们最早是在 google 提出 UDA 算法的那篇论文中发现的这一技术 [6], 阅读全文
posted @ 2020-07-16 17:32 今夜无风 阅读(836) 评论(0) 推荐(1) 编辑
摘要:原理 BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。 BM25算法的一般性公式如下: 其中,Q表示Qu 阅读全文
posted @ 2020-07-14 20:10 今夜无风 阅读(767) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-07-13 16:22 今夜无风 阅读(713) 评论(0) 推荐(0) 编辑
摘要:在过去的一年里,我和我的团队一直致力于为 Taboola feed 提供个性化用户体验。我们运用多任务学习(Multi-Task Learning,MTL),在相同的输入特征集上预测多个关键性能指标(Key Performance Indicator,KPI),然后使用 TensorFlow 实现深 阅读全文
posted @ 2020-07-10 15:47 今夜无风 阅读(1224) 评论(0) 推荐(0) 编辑
摘要:近日,百度在该领域取得突破,提出业界首个融合场景图知识的多模态预训练模型 ERNIE-ViL。百度研究者将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本 阅读全文
posted @ 2020-07-06 14:03 今夜无风 阅读(823) 评论(0) 推荐(0) 编辑
摘要:A Python implementation of the Rapid Automatic Keyword Extraction (RAKE) algorithm as described in: Rose, S., Engel, D., Cramer, N., & Cowley, W. (201 阅读全文
posted @ 2020-07-02 21:33 今夜无风 阅读(1812) 评论(0) 推荐(0) 编辑
摘要:3种常用的词向量训练方法的代码,包括Word2Vec, FastText, GloVe: https://github.com/liyumeng/DeepLearningPractice2017/blob/master/WordEmbedding/WordEmbedding.ipynb 词向量可视化 阅读全文
posted @ 2020-07-02 17:24 今夜无风 阅读(1035) 评论(0) 推荐(0) 编辑