摘要: 1,挑选校准数据集,如测试集,bad case数据 2,每层量不量化对最后一层输出的cos影响,影响大的,设置成fp16或者int16 3,部分cos较低的层,想办法从源头提高cos,如加上一个BN,换上adam优化器,而不是adamw 4,brecq/qdrop,或者we,或者联合使用 6,多分支 阅读全文
posted @ 2023-11-04 15:27 立冬以东 阅读(18) 评论(0) 推荐(0) 编辑