ChatSearch:一个基于多轮多模态对话上下文的图像检索数据集,它要求检索系统能够在对话中准确找到目标图像。
2024-10-24,由中国科学院自动化研究所与字节跳动公司合作创建了ChatSearch,这一数据集通过多轮对话上下文来检索图像,极大地推动了开放领域内对话式图像检索技术的发展。
一、研究背景:
在人工智能领域,图像检索技术已经从基于内容的搜索发展到了更加自然和直观的对话式交互。这种对话式图像检索允许用户通过与计算机的互动对话来表达他们想要检索的图像,这种方式更加符合人类的交流习惯。
目前遇到困难和挑战:
1、对话式图像检索需要模型理解多模态对话内容,包括文本和视觉信息,这对模型的多模态理解能力提出了更高的要求。
2、现有的数据集往往缺乏多轮对话上下文,难以支持复杂的推理和世界知识的应用。
3、对话式检索系统需要能够处理开放领域的广泛话题,这对模型的泛化能力是一个挑战。
二、让我们一起来看一下 ChatSearch数据集
ChatSearch是一个基于多轮多模态对话上下文的图像检索数据集,它要求检索系统能够在对话中准确找到目标图像。
数据集包含了针对每张目标图像的多轮多模态对话上下文查询,这些查询由文本和视觉元素交织而成,模拟了用户与系统的互动过程。
数据集构建 :
采用了自动化流水线,结合了大规模预训练模型的辅助,并经过领域专家的手动审核。
数据集特点:
1、多模态对话上下文:数据集包含了文本和图像的交互,要求模型能够理解并推理这两种模态的信息。
2、隐含的检索意图:所需检索的图像信息并不直接给出,而是隐含在对话上下文中,需要模型通过复杂推理和世界知识来获取。
3、多样性和复杂性:数据集通过合并不同来源的对话,提供了更复杂和多样的交互场景。
可以使用ChatSearch数据集来训练和评估对话式图像检索模型,通过模拟用户与系统的互动来优化检索性能。
基准测试:
ChatSearch数据集提供了三个子任务:tChatSearch、iChatSearch和mChatSearch,分别对应不同的对话上下文格式,并使用召回率作为评价指标。
三、让我们一起展望数据集应用:
比如,我是一位历史老师:
我日常工作,比如讲到唐朝的政治和生活文化,我得提前准备一大堆资料,比如翻箱倒柜找历史书,上网搜图片,还得自己编辑PPT,力求把每张图每段文字都弄得明明白白的。讲到唐朝的政治,我得给学生们解释啥叫“三省六部制”,这可不是光靠嘴说就能让学生明白的,得有图有真相。我得找那种古代朝廷的图,然后还得在黑板上比比划划,告诉他们哪儿是中书省,哪儿是门下省,哪儿是尚书省。至于衣食住行、风俗礼仪这些,那就更头疼了,我得找各种唐朝的壁画啊,陶俑啊,尽量让学生们有个直观的感受。
现在有了这个ChatSearch数据集训练的系统,大不一样。
我要讲解唐朝的政治结构,我就跟系统说:“给我展示一下唐朝三省六部制的图。”这系统就能立马从它的资料库里头,找出那些描绘唐朝三省六部制的图片来。这还不算完,它还能根据这些图,给我和学生们讲这背后的历史故事,比如这个制度是怎么来的,为啥要这么搞,这个制度对唐朝有啥影响。 再比如,我要讲唐朝的风俗礼仪,我就跟系统说:“给我展示一下唐朝春节的风俗。”系统就能找出那些记录了唐朝春节风俗的图片,还能配上文字说明,让学生们看看唐朝人是怎么过年的,他们穿什么样的衣服,吃什么样的食物,玩什么样的游戏。这比我以前干巴巴地念课本生动多了。 这个系统还有个好处,就是它能理解上下文,能根据我们的对话来提供信息。比如我们在讨论唐朝的服饰,有学生可能会问:“那唐朝的房子长啥样?”系统就能立马找出唐朝建筑的图片,让学生们看看唐朝的宫殿、民居都是什么样子。
现在,我再也不用花大把时间去找资料了,课堂上也活跃多了。学生们看着那些图片,听着那些故事,对唐朝的政治和文化有了更深的理解和兴趣。