根据视频内容提取关键特征 动作 物体 文本 语音 人物等

发现了一个有趣的AI应用,Embedding除了可以应用于文本向量化检索之外,也可以用于视频领域,Twelve Labs这家公司发布了一个AI工具,支持通过自然语言检索视频中的任意内容。通过从视频中提取关键特征,如动作、物体、屏幕上的文本、语音和人物,将所有这些信息转化为向量表示,使得面向海量视频内容的语义检索成为可能。

Demo中可以看到,这个工具实现了视频特征提取+视频位置定位,还是要强调一下,这个并不是通过视频字幕文本实现的定位,对于没有任何对话的视频,也可以通过视频内的动作、物体信息来定位。

可以预见的是这项技术可以广泛应用于视频网站海量内容检索、视频剪辑软件内的素材管理、搜索引擎的视频内容检索等,也有希望直接集成到操作系统级别。

展开联想一下,随着视频信息的向量化,除了检索场景外,也可以用于视频内容的分类,整理,摘要,提取关键信息,推荐等场景。过去各大短视频平台靠着大量人工标注的方式为用户提供视频内容推荐,这项技术也许可以大大减少这项工作所需的人力
posted @ 2023-05-07 05:53  myrj  阅读(201)  评论(0编辑  收藏  举报