摘要:
前序: Google AI最新出品的论文Reformer 在ICLR 2020会议上获得高分,论文中对当前暴热的Transformer做两点革新:一个是局部敏感哈希(LSH);一个是可逆残差网络代替标准残差网络。本文主要介绍变革的第二部分,可逆残差网络。先从神经网络的反向传播讲起,然后是标准残差网络 阅读全文
paper阅读:UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)
摘要:
概述: UniLM是微软研究院在Bert的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务,可以说是结合了AR和AE两种语言模型的优点,Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩。 一、AR与AE语言模型 AR 阅读全文
摘要:
一、动态连通性(Dynamic Connectivity) Union-Find 算法(中文称并查集算法)是解决动态连通性(Dynamic Conectivity)问题的一种算法。动态连通性是计算机图论中的一种数据结构,动态维护图结构中相连信息。简单的说就是,图中各个节点之间是否相连、如何将两个节点 阅读全文
摘要:
一、模型框架图 二、分层介绍 1)ALBERT层 albert是以单个汉字作为输入的(本次配置最大为128个,短句做padding),两边分别加上开始标识CLS和结束标识SEP,输出的是每个输入word的embedding。在该框架中其实主要就是利用了预训练模型albert的词嵌入功能,在此基础上f 阅读全文
摘要:
Lift图衡量的是,与不利用模型相比,模型的预测能力“变好”了多少,lift(提升指数)越大,模型的运行效果越好。 TP:划一个阈值后的正样本。 P:总体的正样本。 在模型评估中,我们常用到增益/提升(Gain/Lift)图来评估模型效果,其中的Lift是“运用该模型”和“未运用该模型”所得结果的比 阅读全文
摘要:
一、变量相关的函数 1)tf.train.list_variables(ckpt_dir_or_file) Returns list of all variables in the checkpoint 2)tf.global_variables_initializer() 用于初始化所有的变量(G 阅读全文
摘要:
一、计算图 TensorFlow中两个最重要的概念,一个是Tensor,一个是Flow。Tensor就是张量,Flow就是计算流。计算图中的每个节点就是一个张量,而张量之间的依赖关系就是计算流,也就是在计算图中从一个Tensor通过计算流到另一个Tensor。 在上述代码中,TensorFlow会自 阅读全文
摘要:
除了之前较为流行的RELU激活函数,最近又新出了几个效果较好的激活函数 一、BERT激活函数 - GELU(gaussian error linear units)高斯误差线性单元 数学公式如下: X是服从标准正态分布的变量。 近似的数学计算公式如下: 函数图如下: 橙色曲线为:GELU 蓝色曲线为 阅读全文
摘要:
一、BERT整体结构 BERT主要用了Transformer的Encoder,而没有用其Decoder,我想是因为BERT是一个预训练模型,只要学到其中语义关系即可,不需要去解码完成具体的任务。整体架构如下图: 多个Transformer Encoder一层一层地堆叠起来,就组装成了BERT了,在论 阅读全文
摘要:
一、背景 推荐系统中,有一个刚需就是去重,去重主要涉及两块: 1)内容源去重,即有些抓取的文章基本是讲的一件事。 2)给用户推荐的内容去重,即不能重复推荐。 对于第一种去重,可以采用Google公布的去重算法Simhash,该算法适合海量数据去重。对于常规的文本相似度计算,需要分词,组合成一个向量, 阅读全文