上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
摘要: 残差网络为什么叫残差? 由以下公式决定: R(x) = Output - Input = H(x) - x 倒数H'(x) = R'(x) + 1,这样梯度就不会因为链式法则而逐渐消失了。 Residual Network和LSTM的关系? LSTM也可以部分解决梯度消失的问题。 阅读全文
posted @ 2021-08-18 17:45 xuyv 阅读(39) 评论(0) 推荐(0) 编辑
摘要: 原文章。 https://www.sigarch.org/the-future-of-sparsity-in-deep-neural-networks/ 从三方面分析 1. Sparse Algorithms 第一层面是算法。 算法可以直接减少需要的workload。 2. Sparse Kerne 阅读全文
posted @ 2021-08-18 11:44 xuyv 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 因为根据链式法则,最靠近input的参数更新值为后面每一层梯度相乘,这样参数0~1的累乘会造成梯度消失,接近于0。 梯度爆炸一般是不稳定的模型或者计算造成,如某一层梯度过大。 阅读全文
posted @ 2021-08-18 09:41 xuyv 阅读(26) 评论(0) 推荐(0) 编辑
摘要: attention机制将整个句子作为输入,从中抽取有用的信息。 每个输出都跟整个句子优化,输出的值为输入的句子的词向量的一个加权求和值。 “This is what attention does, it extracts information from the whole sequence, a  阅读全文
posted @ 2021-08-16 18:31 xuyv 阅读(73) 评论(0) 推荐(0) 编辑
摘要: copy_u_sum是u_mul_e_sum的特殊形式。 u 节点,e 边。 都是spmm,只不过copy的e的权重值为1。 阅读全文
posted @ 2021-06-18 19:35 xuyv 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 可以有节点特征,也可以有边特征。 节点特征,如node2vec,可以理解为[batch, feature]的dense矩阵 而边特征,可以理解为[batch, batch], (nnz =边的数量) 的sparse矩阵。sparse 中的values向量存的就是边特征的值。 另外, 对于加权图,用户 阅读全文
posted @ 2021-06-18 17:40 xuyv 阅读(464) 评论(0) 推荐(0) 编辑
摘要: A: sparse matrix,邻接矩阵 B: dense matrix, node embedding features(node2vec) C: dense matrix, ... spmm A * B:可以理解为对连接的节点做聚合,如我的工资等于旁边人的工资的平均。 (如https://do 阅读全文
posted @ 2021-06-16 17:32 xuyv 阅读(1176) 评论(0) 推荐(0) 编辑
摘要: logits理解为unnormalized log probability。(log probablility) 即输出的按比例的概率大小,但是还没有normailized。 阅读全文
posted @ 2021-06-11 16:02 xuyv 阅读(55) 评论(0) 推荐(0) 编辑
摘要: cuda_error_invalid_ptx 原因有下面三个: 1. cuda version 和driver version不匹配,这个可能是最多的 2. cuda 不再支持此GPU。即GPU太老了,你又安装了太新的CUDA 3. .cu里写的CUDA code,有问题,比如buffer参数 (c 阅读全文
posted @ 2021-06-02 11:55 xuyv 阅读(1988) 评论(0) 推荐(0) 编辑
摘要: CUDA通常指CUDA Toolkit,版本1.0~10.x。 而GPU指的是GPU架构,如Maxwell, Pascal(硬件指令集架构)。 Compute capability指的是计算能力,通常跟GPU架构绑定。 如Maxwell的架构,compute capability为5.0~-5.3。 阅读全文
posted @ 2021-06-02 11:29 xuyv 阅读(1579) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页