摘要:
bert结构 首先是embdding lookup,【batch * seq】-->[batch, seq, hidden] 然后是加个mask embdding和type embdding和postion embdding作为最终 然后到transformers,transformers是24层的 阅读全文
摘要:
最近看了下pytorch的数据读取接口,一个dataset,一个dataloader。相比tf的话,可以说抽象的好一些,但是tf的话封装集成的好一些。 pytorch的话适合小数据集合的快速开发和实验。tf的话,更侧重工业级一点,一次调通之后,以后不需要经常变,性能的收益是比较好的。另外tf的生态好 阅读全文