CogView3环境搭建&推理测试
清华智谱的开源模型也写了很多个了 。盘一下,发现少了文生图的模型,刚好CogView3发布,一看只有3B参数,好嘞,就它了。OK,我们开始吧。
一、模型介绍
CogView是一个文生图的开源大模型,它需要强大的
下表显示了智谱团队目前提供的文本生成图像模型列表及其基础信息。
算法分为三个阶段:
第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。
第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。
第三阶段:将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。
在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。
二、环境搭建
模型下载:
pip install modelscope
modelscope download --model ZhipuAI/CogView3-Plus-3B
代码下载:
git clone
docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace python:3.10.11 bash
cd /workspace/CogView3/CogView3-main/inference
pip install -r requirements.txt -i
pip install git+
三、测试推理
python test.py
python cli_demo.py --model_path "CogView3-Plus-3B" --prompt "A beautiful sunset over a mountain" --width 1024 --height 1024