02 2025 档案
摘要:基本思路 把一堆真实样本通过编码器网络变换成一个理想的数据分布,然后这个数据分布再传递给一个编码器网络,得到一堆生成样本,生成样本与真实样本足够接近的话,就训练出了一个自编码器模型。那VAE就是在自编码器模型上进一步变分处理,使得编码器的输出结果能对应到目标分布的均值和方差,如下图所示: VAE的设
阅读全文
摘要:Oord等人的这篇论文提出了使用离散潜在嵌入进行变分自动编码的想法。提出的模型成为向量量化变分自动编码器 基本思想 VAE由3部分组成: 1.一个编码器网络,参数化潜在的后验 2.先验分布 3.输入数据分布为 的解码器 通常我们假设先验和后验呈对
阅读全文
摘要:1. TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis 链接:https://openreview.net/forum?id=1CLzLXSFNn 关键词:多任务(预测,分类,插补
阅读全文
摘要:transformer的整体结构 在机器翻译中,transformer可以将语言翻译成另一种语言,如果把transformer看成一个黑盒,那么其结构如下图所示: 拆开这个黑盒子,可以看到transformer由若干个编码器和解码器组成,如下图所示: 继续讲encoder和decoder拆开,可以看
阅读全文
摘要:自注意力机制 针对输入是一组向量,输出也是一组向量,输入长度为N的向量,输出同样为长度为N的向量。 单个输出 对于每一个输入向量a,经过蓝色部分self-attention之后都输出一个向量b,这个向量是考虑了所有的输入向量对a1产生的影响才得到的,这里有四个词向量a对应就会输出四个向量b。 下面以
阅读全文
摘要:什么是交叉注意力机制 在交叉注意力机制中,模型会使用一个输入序列作为查询(Query),然后根据另一个输入序列计算其相关的注意力权重。这种机制运行模型动态地关注不同的输入,决定哪些部分最重要。 交叉注意力的主要功能是捕捉两个输入之间的依赖关系。例如,在问答系统中,交叉注意力机制可以让模型根据问题动态
阅读全文
摘要:网络结构 conv 3 3, ReLU : 就是卷积层,其中卷积核大小是3 3 ,然后经过Relu激活。 copy and crop :意思是复制和裁剪。对于输出的尺寸,进行复制并进行中心裁剪,方便和后面上采样生成的尺寸进行拼接。 max pool 2 \
阅读全文