Master笔记 22-6-6 @多模态数据集
2022-6-6 10:49:34
该死,我又心动了,这都能行
https://mp.weixin.qq.com/s/kLEvmDPLiW0BWSZS4eSvdw
谷歌的Imagen:文本到图像的生成
首先,算法会采用 frozen T5-XXL 编码器对接收到的文本进行编码。输出送给文本转图像的扩散模型,并输入给两个超分辨率扩散模型。文本转图像的扩散模型输出的图像分辨率是 64 * 64的,然后再经过两次超分,得到最终 1024 * 1024 的图像。
项目地址:https://github.com/lucidrains/imagen-pytorch
CogVideo:文本生成视频
第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。
微软发现了一个超简单的NLP上分技巧,还发了ACL2022 ??
https://mp.weixin.qq.com/s/koUKcfIozcl2zYeVzGj9wA
在自然语言处理中,通过从大型语料库中利用检索的方法获取与输入相关的文本信息来作为补充,通常可以较为显著的提升模型性能。这是因为通过检索,模型收获了额外的与输入相关的知识。
然而,这些方法都需要建立大规模语料库的索引,并且检索会显著地增加计算负担。
Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data:通过在输入文本中拼接与之最相似的已标注数据,能大幅度提升模型性能。实验结果表明,这种简单的方法可以在各种包括摘要生成、机器翻译、语言建模和问答等任务上都有更好的表现。
核心思路
对于给定输入,通过检索从语料库中收集与输入最相似的信息,然后将检索结果与输入结合,一同输入到自然语言处理模型中。
具体来说,和把大象放进冰箱的步骤数量一致,分为如下三步:
- 为语料库索引建立键值对列表,即;\(C=(k_i, v_i)\)
- 给定输入\(x_i\),依据键值对寻找与\(x\)最相似的k个键值并取出其对应的\(v_i\);
- 将检索结果与输入\(x\)拼接并一同送入模型中进行训练。
于是乎,模型从原始输入\(O = M(x)\)
变化为:
\(O = M(f(x,\; (k_1, v_1),\; (k_2, v_2),...(k_k, v_k)))\)
其中,\((k_i, v_i)\)为检索得到的键值对,而且取决于函数f,k,v可能都用到也可能只用到v。
一些细节
如果从大型语料库中检索的话,计算开销较大。所以,本文提出直接从有标签的训练集数据中检索,即REtrieval from traINing datA
对于检索,本文用BM25算法来找出与输入x最相似的k个句子。文中说主要是看上了它的检索速度之快。
对于不同任务如何定义\((k, v)\)对,以及检索到的\((k, v)\)对以何种形式与x组合大有说法
本文算是一篇数据增强方面的工作,其原理也比较容易理解:即使有数亿个参数,模型也不能记住训练数据中的所有范式。因此,提取相关训练数据作为输入,可以显式地提供所需的一些候补信息,以提高模型的推理性能。可以预见到该方法同样试用于few-shot learning。
PyTorch Live
https://github.com/pytorch/live/
https://pytorch.org/live/
PyTorch Live is an easy to use library of tools for creating on-device ML demos on Android and iOS. With Live, you can build a working mobile ML prototype in minutes.
制作移动端pytorch深度学习应用而非移动端的pytorch框架,而且大概是一个应用,内部运行不同任务的模型
通用信息抽取 UIE(Universal Information Extraction)
https://mp.weixin.qq.com/s/7Ws_totGHha7gVL3ijr3Kw
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
- 使用简单:用户可以使用自然语言自定义抽取目标,无需训练即可统一抽取输入文本中的对应信息。实现开箱即用,并满足各类信息抽取需求。
- 降本增效:以往的信息抽取技术需要大量标注数据才能保证信息抽取的效果,为了提高开发过程中的开发效率,减少不必要的重复工作时间,开放域信息抽取可以实现零样本(zero-shot)或者少样本(few-shot)抽取,大幅度降低标注数据依赖,在降低成本的同时,还提升了效果。
- 效果领先:开放域信息抽取在多种场景,多种任务上,均有不俗的表现。
2022-6-7 21:09:48
多模态分析数据集(Multimodal Dataset)整理
https://zhuanlan.zhihu.com/p/189876288
- 多模态讽刺
- 多模态情感和情绪分析(文本+音频+图像) CMU-MOSEI数据集
- 多模态幽默分析(文本+语音+图像) UR-FUNNY数据集
- 多模态图片描述匹配检索 6个,文本+图像
【数据集】多模态数据集(1)
https://blog.csdn.net/m0_37929824/article/details/107942896
- 模仿和谈判(音频+视频) MAHNOB-Mimicry
- 物体检测、物体定位、行为分析和动作预期 EPIC-Kitchens
2022-6-12 15:03:13
史上最大多模态图文数据集发布!
https://blog.csdn.net/qq_27590277/article/details/121134203
史上最大规模的多模态图文数据集:LAION-400
公开了4亿图文对,可以依据不同的用途提供不同大小版本的子数据集。适用于图文对检索等任务,每个图片对之间具有相关性
多模态情感分析
- IEMOCAP数据集:单条数据包括对话者的音频、视频、文本、面部和姿势信息等,情感标签为愤怒、快乐、悲伤、中立等10个标签。数据集单条质量较高,但是其数据集的规模较小。
- MELD数据集:电视剧《老友记》中截取片段构成,模态包括文本信息、视频,包含7种情感,分别是angger、disgust、sadness、joy、Netural、suprise、fear,对每句话有情感注释positive、negative、neutral。该数据集规模较大,但是其剧情相关背景较为复杂,识别情感的难度增大。
- CH-SIMS数据集:60个原始视频,从中文影视作品《西虹市》、《妖猫传》中剪辑出2281个视频片段,每个片段长度在1s——10s之间。数据集的情感标注为-1(负向)、0(中性)、1(正向)。有多模态最终的标签,还具备各个单模态的情感标签。
- SEMAINE数据集:数据集标注的情感维度采用连续模式情感标注,情感维度为:Valence (愉悦度), Arousal (激活度), Expectancy (预期), Power (力量)。其中Valence表示情感积极向的程度,Arousal表示兴奋程度,Expectancy表示与预期相符的程度,power表示情感影响力,其中Valence、Arousa和Expectancy为[-1, 1]范围内的连续值,Power为大于等于0的连续值。
多模态检索:即不同模态的同类别之间的搜索,例如文搜图,图搜文等,融合不同的模态便于检索
- COCO
- IAPR TC-12数据集
- Conceptual Captions Dataset
多模态对话:对话中不同的视觉信息融入到对话中,进而生成更高质量的对话。
- OpenViDial 数据集
CreativeRanking: A Large-Scale Dataset for Creative Ranking in Display Advertising大规模广告创意优选数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=93585
创意优选面临着更为严重的冷启动问题。我们希望通过对创意内容的理解找到与投放相关的通用视觉特征,在冷启动的商品/创意中达到更好的预估效果。
总之就是要选出最能刺激消费的商品展示图
模态包括图片跟一些广告投放数据
CIKM 2021 | MDFEND:多领域虚假新闻检测(已开源)
https://zhuanlan.zhihu.com/p/443690475
针对多领域虚假新闻检测任务,公开了中文多领域虚假新闻检测数据集——Weibo21,并设计了一种基于多专家框架的多领域虚假新闻检测方法——MDFEND。
BERT + TextCNN
其他虚假新闻检测数据集:一文看懂虚假新闻检测(附数据集 & 论文推荐)
cclEval2022-CLTC-Track4 多参考多来源汉语学习者文本纠错
中文语法纠错(Chinese Grammatical Error Correction, CGEC)技术旨在对其中存在的拼写、词法、语法等各类错误进行自动纠正。
任务描述
给定一段可能含有拼写错误、词法错误(如词语误用、丢失、冗余)、语法错误(如乱序)、语义错误(如逻辑不通)的中文文本,本任务需要对其中所有错误进行纠正,并且生成相应的语法正确、流畅且符合原意的文本。该任务对教育、新闻出版等领域均有着重要的意义。
本文作者:心有所向,日复一日,必有精进
本文链接:https://www.cnblogs.com/Stareven233/p/16370527.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步