wav2clip 阅读

最近看wav2clip代码和论文, 发现没人写过相关博客. 我就补上.

 直接从第二章开始看:

  第二章: 参考上面图1: 首先回顾了一下经典的clip模型. 然后图片中间distiling from clip采取类似结构. 但是往里面加入了MLP网络,也就是dnn, 对应图片中的Contrstive Loss Projection Layers. 之后我们定义了一个损失函数.

   Loss=L(f(Image); Audio) + L(Image; g(Audio)) (f; g:projection functions and L: contrastive loss)

  含义也就是帧的投影后的和Audio算cosin损失. 加上 Audio投影后的跟帧算损失再相加两个损失.

 

 

 

posted on 2023-08-28 15:18  张博的博客  阅读(30)  评论(0编辑  收藏  举报

导航