摘要: 注意,reshape是不会改变数据在内存中的顺序的,而permute是会改变的,举例如下 x = tensor([[[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]], [[12, 13, 14, 15], [16, 17, 18, 19], [20, 21 阅读全文
posted @ 2025-02-23 17:26 最爱丁珰 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 这里查询,键和值的形状不要看书上,看我下面写的文字 对于查询来说,第一维的确是批量大小,可以忽略不管;第二维是一个批量中查询z的个数;第三维是每个查询z的特征维度(代码中的query_size) 对于键来说,第一维的确是批量大小,可以忽略不管;第二维是键值对个数,也就是键的个数,也就 阅读全文
posted @ 2025-02-23 16:03 最爱丁珰 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 这里的键可以理解成x,值可以理解成y,也就是说每一个x都会对应一个y(在这个情形下,xy都可以是向量,而且维度不一定相同);查询可以理解成一个我们想要预测的量z,想要预测z的输出y是多少(注意z的维度不一定要与\(x\ 阅读全文
posted @ 2025-02-23 15:52 最爱丁珰 阅读(3) 评论(0) 推荐(0) 编辑
摘要: Problem Set 1.1 Problem 1.1.1 1) 基本情况:若z=0,则yz=0,返回正确值 归纳假设:令d为一个常数,假设z<d,算法返回正确值 归纳步骤:若z=d,利用数学归纳法 若z为偶数,则返回\(\te 阅读全文
posted @ 2025-02-23 13:42 最爱丁珰 阅读(4) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示