wav2clip 阅读
最近看wav2clip代码和论文, 发现没人写过相关博客. 我就补上.
直接从第二章开始看:
第二章: 参考上面图1: 首先回顾了一下经典的clip模型. 然后图片中间distiling from clip采取类似结构. 但是往里面加入了MLP网络,也就是dnn, 对应图片中的Contrstive Loss Projection Layers. 之后我们定义了一个损失函数.
Loss=L(f(Image); Audio) + L(Image; g(Audio)) (f; g:projection functions and L: contrastive loss)
含义也就是帧的投影后的和Audio算cosin损失. 加上 Audio投影后的跟帧算损失再相加两个损失.