xuyv - 博客园

2021年8月18日

摘要：残差网络为什么叫残差？由以下公式决定： R(x) = Output - Input = H(x) - x 倒数H'(x) = R'(x) + 1，这样梯度就不会因为链式法则而逐渐消失了。 Residual Network和LSTM的关系？ LSTM也可以部分解决梯度消失的问题。阅读全文

posted @ 2021-08-18 17:45 xuyv 阅读(39) 评论(0) 推荐(0) 编辑

DNN中的Sparsity研究

摘要：原文章。 https://www.sigarch.org/the-future-of-sparsity-in-deep-neural-networks/ 从三方面分析 1. Sparse Algorithms 第一层面是算法。算法可以直接减少需要的workload。 2. Sparse Kerne 阅读全文

posted @ 2021-08-18 11:44 xuyv 阅读(96) 评论(0) 推荐(0) 编辑

梯度爆炸或者梯度消失

摘要：因为根据链式法则，最靠近input的参数更新值为后面每一层梯度相乘，这样参数0~1的累乘会造成梯度消失，接近于0。梯度爆炸一般是不稳定的模型或者计算造成，如某一层梯度过大。阅读全文

posted @ 2021-08-18 09:41 xuyv 阅读(26) 评论(0) 推荐(0) 编辑

2021年8月16日

Attension Is All You Need

摘要： attention机制将整个句子作为输入，从中抽取有用的信息。每个输出都跟整个句子优化，输出的值为输入的句子的词向量的一个加权求和值。 “This is what attention does, it extracts information from the whole sequence, a 阅读全文

posted @ 2021-08-16 18:31 xuyv 阅读(73) 评论(0) 推荐(0) 编辑

2021年6月18日

copy_u_sum和u_mul_e_sum

摘要： copy_u_sum是u_mul_e_sum的特殊形式。 u 节点，e 边。都是spmm，只不过copy的e的权重值为1。阅读全文

posted @ 2021-06-18 19:35 xuyv 阅读(126) 评论(0) 推荐(0) 编辑

图中的节点和边

摘要：可以有节点特征，也可以有边特征。节点特征，如node2vec，可以理解为[batch, feature]的dense矩阵而边特征，可以理解为[batch, batch]，（nnz =边的数量）的sparse矩阵。sparse 中的values向量存的就是边特征的值。另外，对于加权图，用户阅读全文

posted @ 2021-06-18 17:40 xuyv 阅读(464) 评论(0) 推荐(0) 编辑

2021年6月16日

理解图学习中的spmm和sddmm

摘要： A: sparse matrix，邻接矩阵 B: dense matrix, node embedding features(node2vec) C: dense matrix, ... spmm A * B：可以理解为对连接的节点做聚合，如我的工资等于旁边人的工资的平均。 (如https://do 阅读全文

posted @ 2021-06-16 17:32 xuyv 阅读(1176) 评论(0) 推荐(0) 编辑

2021年6月11日

what is logits

摘要： logits理解为unnormalized log probability。（log probablility）即输出的按比例的概率大小，但是还没有normailized。阅读全文

posted @ 2021-06-11 16:02 xuyv 阅读(55) 评论(0) 推荐(0) 编辑

2021年6月2日

cuda_error_invalid_ptx 原因解析

摘要： cuda_error_invalid_ptx 原因有下面三个： 1. cuda version 和driver version不匹配，这个可能是最多的 2. cuda 不再支持此GPU。即GPU太老了，你又安装了太新的CUDA 3. .cu里写的CUDA code，有问题，比如buffer参数（c 阅读全文

posted @ 2021-06-02 11:55 xuyv 阅读(1988) 评论(0) 推荐(0) 编辑

CUDA version和GPU的关系

摘要： CUDA通常指CUDA Toolkit，版本1.0~10.x。而GPU指的是GPU架构，如Maxwell, Pascal（硬件指令集架构）。 Compute capability指的是计算能力，通常跟GPU架构绑定。如Maxwell的架构，compute capability为5.0~-5.3。阅读全文

posted @ 2021-06-02 11:29 xuyv 阅读(1579) 评论(0) 推荐(0) 编辑

公告