05 2022 档案

摘要:随着接触到的模型越来越大,自然就会接触到这种技术。 记录下自己的踩坑过程,当看到多机多卡跑通后,那种苦尽甘来的感觉还是挺舒服的。 我们首先来说一下单机多卡 huggingface上面有大佬上传了中文的BigBird的权重,想尝试能够处理的序列最长长度为4096的模型,但是放到单张卡里面batch_s 阅读全文
posted @ 2022-05-18 17:56 Hisi 阅读(2357) 评论(0) 推荐(0) 编辑
摘要:https://huggingface.co/blog/big-bird#bigbird-block-sparse-attention 阅读全文
posted @ 2022-05-09 13:44 Hisi 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-05-03 15:59 Hisi 阅读(9) 评论(0) 推荐(0) 编辑