python 文本形成视频
https://modelscope.cn/models/damo/text-to-video-synthesis/summary?continueFlag=316e474d46439886c7d26c850c8c9d37
from modelscope.pipelines import pipeline from modelscope.outputs import OutputKeys p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis') test_text = { 'text': 'A panda eating bamboo on a rock.', } output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO] print('output_video_path:', output_video_path)
如何使用
在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为'text',内容为一小段文本。该模型暂仅支持在GPU上进行推理。输入具体代码示例如下:
运行环境 (Python Package)
pip install modelscope
pip install open_clip_torch
查看结果 (View Results)
上述代码会展示输出视频的保存路径,目前编码格式采用VLC播放器可以正常播放。
The output mp4 file can be viewed by VLC media player. Some other media players may not view it normally.
模型局限性以及可能的偏差
- 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。
- 该模型无法实现完美的影视级生成。
- 该模型无法生成清晰的文本。
- 该模型主要是用英文语料训练的,暂不支持其他语言。
- 该模型在复杂的组合性生成任务上表现有待提升。
滥用、恶意使用和超出范围的使用
- 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
- 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
- 禁止用于涉黄、暴力和血腥内容生成。
- 禁止用于错误和虚假信息生成。
训练数据介绍
训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。