摘要:
注意,reshape是不会改变数据在内存中的顺序的,而permute是会改变的,举例如下 x = tensor([[[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]], [[12, 13, 14, 15], [16, 17, 18, 19], [20, 21 阅读全文
摘要:
这里查询,键和值的形状不要看书上,看我下面写的文字 对于查询来说,第一维的确是批量大小,可以忽略不管;第二维是一个批量中查询 的个数;第三维是每个查询 的特征维度(代码中的query_size) 对于键来说,第一维的确是批量大小,可以忽略不管;第二维是键值对个数,也就是键的个数,也就 阅读全文
摘要:
这里的键可以理解成 ,值可以理解成 ,也就是说每一个 都会对应一个 (在这个情形下, 和 都可以是向量,而且维度不一定相同);查询可以理解成一个我们想要预测的量 ,想要预测 的输出 是多少(注意 的维度不一定要与\(x\ 阅读全文
摘要:
Problem Set 1.1 Problem 1.1.1 基本情况:若 ,则 ,返回正确值 归纳假设:令 为一个常数,假设 ,算法返回正确值 归纳步骤:若 ,利用数学归纳法 若 为偶数,则返回\(\te 阅读全文