python 文本形成视频

https://modelscope.cn/models/damo/text-to-video-synthesis/summary?continueFlag=316e474d46439886c7d26c850c8c9d37

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys

p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

如何使用

在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为'text',内容为一小段文本。该模型暂仅支持在GPU上进行推理。输入具体代码示例如下:

运行环境 (Python Package)

pip install modelscope
pip install open_clip_torch

查看结果 (View Results)

上述代码会展示输出视频的保存路径,目前编码格式采用VLC播放器可以正常播放。

The output mp4 file can be viewed by VLC media player. Some other media players may not view it normally.

模型局限性以及可能的偏差

  • 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。
  • 该模型无法实现完美的影视级生成。
  • 该模型无法生成清晰的文本。
  • 该模型主要是用英文语料训练的,暂不支持其他语言。
  • 该模型在复杂的组合性生成任务上表现有待提升。

滥用、恶意使用和超出范围的使用

  • 该模型未经过训练以真实地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
  • 禁止用于对人或其环境、文化、宗教等产生贬低、或有害的内容生成。
  • 禁止用于涉黄、暴力和血腥内容生成。
  • 禁止用于错误和虚假信息生成。

训练数据介绍

训练数据包括LAION5B, ImageNet, Webvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。

posted @ 2023-03-20 13:35  myrj  阅读(143)  评论(0编辑  收藏  举报