摘要: bert结构 首先是embdding lookup,【batch * seq】-->[batch, seq, hidden] 然后是加个mask embdding和type embdding和postion embdding作为最终 然后到transformers,transformers是24层的 阅读全文
posted @ 2020-04-17 17:28 dmesg 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 最近看了下pytorch的数据读取接口,一个dataset,一个dataloader。相比tf的话,可以说抽象的好一些,但是tf的话封装集成的好一些。 pytorch的话适合小数据集合的快速开发和实验。tf的话,更侧重工业级一点,一次调通之后,以后不需要经常变,性能的收益是比较好的。另外tf的生态好 阅读全文
posted @ 2020-04-17 14:27 dmesg 阅读(134) 评论(0) 推荐(0) 编辑