2024-05-17 闲话

昨天去听了一个宣讲,晚上和 5w citation 的老师吃了一个饭,收获了一个合影。吃饭的时候和刘夏雷老师交流了一个工作,通俗语言表达如下。

连续学习的 setting 下有一个灾难性遗忘的问题。举一个具体一点的例子:现在我们有一个图片分类的任务,原先有 10 类,现在要扩充至 20 类。原先我们建立一个 image 到 1~10 数字的映射,现在我们建立一个 image 到一段文字的映射。原先我们要输出一个数字,我们现在变成输出 token。


昨天另外听了我校徐君老师的一个工作,这个工作中了 icml,也用通俗语言记录一下

我们发现 vision 或者 nlp 网络中有一个模块叫做激活函数。在反向传播过程中,激活函数求导所用到的表达式很长,存储中间量是必要的,但这很消耗显存。我们想把表达式剪短,做法是使用(2/4/8)个 Relu 加权平均,权重是固定的,可以简单预训练或者得到。

skyh 表示:我们 icml 是这样的,你不服你也投去啊。

以上都是大概的 idea 的陈述,具体模型结构选择/不严谨的地方的理论证明请关注论文。

posted @   没学完四大礼包不改名  阅读(61)  评论(1编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示