Datawhale X 魔搭 AI夏令营-第四期(AIGC方向)-Task02-可图Kolors-精读代码实战进阶

往期学习： Datawhale X 魔搭 AI夏令营-第四期(AIGC方向)-Task01-可图Kolors-LoRA风格故事挑战赛

本期学习的主要内容为：

使用阿里云的“通义千问”大模型，来解释并帮助我们读懂Task1中的代码。
使用“通义千问”大模型来辅助设计生图提示词，并生成8图话剧。

下面分部分讲解我的学习过程：

一、使用通义千问辅助读懂Task1中的代码

先贴通义千问链接：https://tongyi.aliyun.com/qianwen/

这一部分我分别进行了五次尝试，下面是对应的prompts：

Prompt01：你是一个优秀的python开发工程师，现在我们需要你帮我们分析这个代码的主体框架，你需要把代码按照工作流分成几部分，用中文回答我的问题。{贴上代码}

Answer01 如下。可以看到，它对代码中所包含的主要工作流程进行了准确的概括说明。

Prompt02：你是一个优秀的python开发工程师，现在我们需要你帮我们逐行分析这个代码，用中文回答我的问题。{贴上代码}

Answer02 如下。可以看到，相比Answer01中概括的工作流程，Answer02它按步骤对代码给出了更为细致的说明。

Prompt03：你是一个优秀的python开发工程师，现在我们需要你帮我们逐行分析这个代码，每一行代码都增加上中文语义备注。{贴上代码}

Answer03 如下。可以看到，它对代码进行了细致的逐行解释，但它没有达到我预期的效果，即返回带注释的代码。

Prompt04：你是一个优秀的python开发工程师，现在我们需要你帮我们逐行分析下面的代码，每一行代码都增加上中文语义备注，并返回带有中文注释的代码。{贴上代码}

Answer04 如下。可以看到，它实现了返回带注释代码的效果，这对于程序员来说有更强的易读性。

Prompt05：我对其中的{目标代码}还是不太理解，给我再详细介绍一下。

Answer05 如下。可以看到，在这个prompt中，我对AI进行了追问，要求它对某一块代码进行更细致的解释。通义千问对这块代码做了非常细致的解释。

二、基于话剧的连环画制作

通过使用通义千问大模型，来生成8图连环画话剧的生图提示词，我给的提示词如下：

你是一个文生图专家，我们现在要做一个实战项目，就是要编排一个文生图话剧
话剧由8张场景图片生成，你需要输出每张图片的生图提示词

具体的场景图片
1、女主在实验台上醒来
2、发现自己被改造成了机器人
3、观察四周，发现周围都是与自己一模一样的机器人
4、女主逃出实验室，发现外面是一个庞大的赛博朋克都市
5、女主找到自己原来的家，已经变成废墟，空无一人
6、女主回想起来，自己和家人遭遇了车祸
7、女主发现自己的身体现在灵活度很高、力量很大
8、女主下定决心，要回实验室找回自己的家人

生图提示词要求
1、风格为赛博朋克风格
2、根据场景确定是使用全身还是上半身
3、人物描述
4、场景描述
5、做啥事情

例子：
赛博朋克风，一个白色短发少女，躺在冰冷的实验台上，睁开眼睛，眼神空洞，上半身，机械躯干

以下为通义千问给出的回答：

提示词

基于通义千问给出的回答，在魔搭提供的免费实例上再次运行Task1中的baseline，并进一步调整，最终的生图提示词如下：

序号	故事描述	正向提示词	反向提示词
1	女主在实验台上醒来	生物力学赛博朋克。一个白色短发少女，躺在冰冷的实验台上，睁开眼睛，眼神空洞，上半身特写，背景是昏暗的实验室，充满未知的设备。控制论、人机融合、反乌托邦、有机与人工的结合、黑暗、复杂、高度详细	自然，色彩鲜艳，变形，素描，低对比度，水彩
2	发现自己被改造成了机器人	生物力学赛博朋克。一个白色短发的女性机器人，站在镜子前观察自己的身体，镜子里反射出她带有机械臂和裸露电路的身体，全身展示，实验室背景，表情疑惑且略带恐惧。控制论、人机融合、反乌托邦、有机与人工的结合、黑暗、复杂、高度详细	自然，色彩鲜艳，变形，素描，低对比度，水彩
3	观察四周，发现周围都是与自己一模一样的机器人	生物力学赛博朋克。一个白色短发的女性机器人，环视四周，周围站着许多与她外观相同的机器人，全身展示，实验室背景，表情困惑。控制论、人机融合、反乌托邦、有机与人工的结合、黑暗、复杂、高度详细	自然，色彩鲜艳，变形，素描，低对比度，水彩
4	女主逃出实验室，发现外面是一个庞大的赛博朋克都市	生物力学赛博朋克。一个白色短发的女性机器人，从破旧的实验室门里跑出来，背后是灯火辉煌、高楼林立的都市夜景，全身展示，紧张而好奇的表情。控制论、人机融合、反乌托邦、有机与人工的结合、黑暗、复杂、高度详细	自然，色彩鲜艳，变形，素描，低对比度，水彩
5	女主找到自己原来的家，已经变成废墟，空无一人	生物力学赛博朋克。一个白色短发的女性机器人，站在被破坏的城市废墟之中，面前是她曾经的家，现在已成为一片废墟，全身展示，表情悲伤。控制论、人机融合、反乌托邦、有机与人工的结合、黑暗、复杂、高度详细	自然，色彩鲜艳，变形，素描，低对比度，水彩
6	女主回想起来，自己和家人遭遇了车祸	生物力学赛博朋克。一个白色短发的女性机器人，站在车祸现场的回忆之中，旁边是翻倒的车辆残骸，上半身特写，眼神中带着痛苦和回忆。控制论、人机融合、反乌托邦、有机与人工的结合、黑暗、复杂、高度详细	自然，色彩鲜艳，变形，素描，低对比度，水彩
7	女主发现自己的身体现在灵活度很高、力量很大	生物力学赛博朋克。一个白色短发的女性机器人，在空旷的仓库内测试自己的身体能力，展示她的灵活性和力量，全身展示，背景是废弃仓库，表情自信且惊讶。控制论、人机融合、反乌托邦、有机与人工的结合、黑暗、复杂、高度详细	自然，色彩鲜艳，变形，素描，低对比度，水彩
8	女主下定决心，要回实验室找回自己的家人	生物力学赛博朋克。一个白色短发的女性机器人，站在实验室入口处，眼神坚定地看向内部，全身展示，背景是阴暗的实验室入口，表情坚决。控制论、人机融合、反乌托邦、有机与人工的结合、黑暗、复杂、高度详细	自然，色彩鲜艳，变形，素描，低对比度，水彩

生成结果与评分

这里采用赛题给出的美学评分进行评价，代码如下：

pip install simple-aesthetics-predictor

import torch, os
from PIL import Image
from transformers import CLIPProcessor
from aesthetics_predictor import AestheticsPredictorV2Linear
from modelscope import snapshot_download


model_id = snapshot_download('AI-ModelScope/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE', cache_dir="models/")
predictor = AestheticsPredictorV2Linear.from_pretrained(model_id)
processor = CLIPProcessor.from_pretrained(model_id)
device = "cuda"
predictor = predictor.to(device)


def get_aesthetics_score(image):
    inputs = processor(images=image, return_tensors="pt")
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        outputs = predictor(**inputs)
    prediction = outputs.logits
    return prediction.tolist()[0][0]


def evaluate(folder):
    scores = []
    for file_name in os.listdir(folder):
        if os.path.isfile(os.path.join(folder, file_name)):
            image = Image.open(os.path.join(folder, file_name))
            scores.append(get_aesthetics_score(image))
    if len(scores) == 0:
        return 0
    else:
        return sum(scores) / len(scores)


score = evaluate("./images")
print(score)