摘要:
'''' 假设目标分布是: 一维的正太分布, i.e., N(0, 1) 建议的转移矩阵Q(i,j)也是正太分布, j 服从 N(i, 2^2) pi(i)Q(i,j)*alpha(i,j) = pi(j)Q(i,j)*alpha(i,j) where alpha(i,j) = pi(j)Q(j,i 阅读全文
摘要:
TinyBERT: 提出了一种基于Transformer架构的蒸馏方法(Transformer distillation) 两阶段的框架, a.预训练阶段 ( generaldistillation) b.fine-tuning阶段 (task-specific distillation) 对Emb 阅读全文
摘要:
首先看下BERT和ALBERT模型的一些版本配置 1. Layer个数和performance的关系:24层是个临界点,大于24后效果有下降趋势 2. 隐藏层节点数目和performance的关系:4096个是个临界点,大于4096后效果有下降趋势 3. 宽的ALBERT需要深的架构吗?作者的答案是 阅读全文
摘要:
# 二分法 def solve(): l, r = 1, 2 eps = 1e-7 while l + eps < r: mid = (l + r) / 2 if mid * mid < 2: l = mid else: r = mid return l # print('{:.6f}'.forma 阅读全文
摘要:
代码链接:https://github.com/zhuqunxi/pytorch-implement-NLP P01 -- Two layer model Numpy to tensor: x_tensor = torch.from_numpy(np_x) Cpu tensor to cuda: x 阅读全文
摘要:
文章1: NICE: NON-LINEAR INDEPENDENT COMPONENTS ESTIMATION 文章2:Real-valued Non-Volume Preserving (RealNVP) 文章3:Glow: Generative Flow with Invertible 1x1 阅读全文
摘要:
RNN:难以并行 CNN:filter只能考虑局部的信息,要叠多层 Self-attention:可以考虑全局的信息,并且可以并行 (Attention Is All You Need) 示意图:x1, x2, x3, x4先embedding成a1, a2, a3, a4,然后输入到Self-At 阅读全文
摘要:
wiki:https://zh.wikipedia.org/wiki/Tf-idf 参考:https://zhuanlan.zhihu.com/p/31197209 tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的 阅读全文
摘要:
转:https://www.cnblogs.com/eyeszjwang/articles/2429382.html k-d树(k-dimensional树的简称)核心: 构建索引树,快速查找 下面是6个二维数据点{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}的k-d树空 阅读全文
摘要:
EM算法 EM算法是含隐变量图模型的常用参数估计方法,通过迭代的方法来最大化边际似然。 带隐变量的贝叶斯网络 给定N 个训练样本D={x(n)},其对数似然函数为: 通过最大化整个训练集的对数边际似然L(D; θ),可以估计出最优的参数θ∗。然而计算边际似然函数时涉及p(x) 的推断问题,需要在对数 阅读全文
摘要:
原文链接:https://arxiv.org/abs/1901.10444 发表在:ICLR 2019 介绍了3中sentence嵌入的结构(RANDOM SENTENCE ENCODERS), 思路:利用预训练的word embedding作为输入,然后句子的encoder不进行训练(i.e., 阅读全文
摘要:
原文链接:https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.100.114101 发表在:PRL 2008 传统的模型的coupling的形式, 其中,Aij 代表j到i的coupling强度,Aii=0, xi(t)是对应节点i的n 阅读全文
摘要:
网址:https://dianshi.baidu.com/competition/30/rank 初赛:第一 复赛:第二 决赛:并列第一 github: https://github.com/zhuqunxi/Urban-Region-Function-Classification 感受 第一次参加 阅读全文
摘要:
原文链接:https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.76.4705 发表在:PRL 1996 考虑一维的情况,假设map为f(x), 我们的目标是去估计不动点x*=f(x*)。接下来,我们考虑下面的变换 其中, 对于k=0的情 阅读全文
摘要:
原文链接:https://arxiv.org/abs/1902.09689 发表在:ICLR 2019 考虑下面的ODE, 将其离散化,假设步长为,我们有 命题1: 如果f的Jacobian矩阵的最大特征值实部小于0,那么ODE的解时稳定的. 我们希望的是,不仅要稳定,而且还希望系统不要稳定的收敛速 阅读全文