Deepfake Day1:Baseline解读

Deepfake

Deepfake是一种使用人工智能技术生成的伪造媒体,特别是视频和音频

深度伪造技术(Deepfake)主要可以分为以下几个研究方向:

  • 面部交换:专注于在两个人的图像之间执行身份交换。
  • 面部重演:强调转移源运动和姿态。
  • 说话面部生成:专注于在角色生成中实现口型与文本内容的自然匹配。
  • 面部属性编辑:旨在修改目标图像的特定面部属性。

Deepfake图像识别baseline

1、使用resnet18模型作为预训练模型

预训练模型是指在特定的大型数据集(如ImageNet)上预先训练好的神经网络模型。这些模型已经学习到了丰富的特征表示,能够识别和处理图像中的多种模式。使用预训练模型的好处是,它们可以在新数据集或新任务上进行微调(Fine-tuning),从而加快训练过程并提高模型性能,尤其是当可用的数据量有限时。

ResNet-18模型是引入了“残差学习”框架,通过添加跳过一层或多层的连接(即残差连接或快捷连接),解决了随着网络深度增加时训练困难的一种深度卷积神经网络。

2、使用transforms.Compose进行数据增强

数据增强是一种在机器学习和深度学习中提升模型性能的重要技术。它通过应用一系列随机变换(如旋转、缩放、翻转)来增加训练数据的多样性,从而提高模型的泛化能力。

transforms.Compose是一个转换操作的组合,它将多个图像预处理步骤串联起来:

  • Resize: 调整图像大小,例如transforms.Resize((256, 256))将图像调整为256x256像素。
  • RandomHorizontalFlip: 随机水平翻转图像,增加数据多样性。
  • RandomVerticalFlip: 随机垂直翻转图像,进一步增加数据多样性。
  • ToTensor: 将PIL图像或Numpy数组转换为torch.FloatTensor类型,并归一化像素值到[0, 1]区间。
  • Normalize: 对图像进行标准化处理,使用均值和标准差进行缩放,例如使用ImageNet数据集的均值[0.485, 0.456, 0.406]和标准差[0.229, 0.224, 0.225]。

3、模型训练

深度学习模型的训练本质上是一个优化问题,目标是最小化损失函数。具体流程如下:

  1. 设置训练模式:通过调用model.train()将模型设置为训练模式。在训练模式下,模型的某些层(如BatchNorm和Dropout)会按照它们在训练期间应有的方式运行。
  2. 遍历数据加载器:使用enumerate(train_loader)遍历train_loader提供的数据批次。input是批次中的图像数据,target是对应的标签。
  3. 数据移动到GPU:通过.cuda(non_blocking=True)将数据和标签移动到GPU上。non_blocking参数设置为True意味着如果数据正在被复制到GPU,此操作会立即返回,不会等待数据传输完成。
  4. 前向传播:通过output = model(input)进行前向传播,计算模型对输入数据的预测。
  5. 计算损失:使用损失函数loss = criterion(output, target)计算预测输出和目标标签之间的差异。
  6. 梯度归零:在每次迭代开始前,通过optimizer.zero_grad()清空(重置)之前的梯度,以防止梯度累积。
  7. 反向传播:调用loss.backward()计算损失相对于模型参数的梯度。
  8. 参数更新:通过optimizer.step()根据计算得到的梯度更新模型的参数。

Deepfake多模态baseline

1、使用resnet18模型作为预训练模型

预训练模型是指在特定的大型数据集(如ImageNet)上预先训练好的神经网络模型。这些模型已经学习到了丰富的特征表示,能够识别和处理图像中的多种模式。使用预训练模型的好处是,它们可以在新数据集或新任务上进行微调(Fine-tuning),从而加快训练过程并提高模型性能,尤其是当可用的数据量有限时。

ResNet-18模型是引入了“残差学习”框架,通过添加跳过一层或多层的连接(即残差连接或快捷连接),解决了随着网络深度增加时训练困难的一种深度卷积神经网络。

2、提取音频特征:MEL频谱图(Mel-spectrogram)

Deepfake技术生成的视频中,音频可能存在不自然或重复的模式,例如重复的单词或短语。通过分析音频的频谱图,可以更容易地发现这些异常,从而帮助识别视频是否经过了深度伪造处理。

MEL频谱图(Mel-spectrogram)是一种在音频信号处理领域常用的可视化工具,它基于人耳的听觉特性来表示音频信号的频率内容。梅尔刻度是一种对频率进行非线性缩放的方法,它将线性频率映射到梅尔频率上,使得梅尔刻度上的间隔更接近人耳感知的间隔。

def generate_mel_spectrogram(video_path, n_mels=128, fmax=8000, target_size=(256, 256)):
    # 提取音频
    audio_path = 'extracted_audio.wav'
    video = mp.VideoFileClip(video_path)
    video.audio.write_audiofile(audio_path, verbose=False, logger=None)

    # 加载音频文件
    y, sr = librosa.load(audio_path)

    # 生成MEL频谱图
    S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=n_mels)

    # 将频谱图转换为dB单位
    S_dB = librosa.power_to_db(S, ref=np.max)

    # 归一化到0-255之间
    S_dB_normalized = cv2.normalize(S_dB, None, 0, 255, cv2.NORM_MINMAX)
    
    # 将浮点数转换为无符号8位整型
    S_dB_normalized = S_dB_normalized.astype(np.uint8)

    # 缩放到目标大小
    img_resized = cv2.resize(S_dB_normalized, target_size, interpolation=cv2.INTER_LINEAR)

    return img_resized

3、模型训练

深度学习模型的训练本质上是一个优化问题,目标是最小化损失函数。具体流程如下:

  1. 设置训练模式:通过调用model.train()将模型设置为训练模式。在训练模式下,模型的某些层(如BatchNorm和Dropout)会按照它们在训练期间应有的方式运行。
  2. 遍历数据加载器:使用enumerate(train_loader)遍历train_loader提供的数据批次。input是批次中的图像数据,target是对应的标签。
  3. 数据移动到GPU:通过.cuda(non_blocking=True)将数据和标签移动到GPU上。non_blocking参数设置为True意味着如果数据正在被复制到GPU,此操作会立即返回,不会等待数据传输完成。
  4. 前向传播:通过output = model(input)进行前向传播,计算模型对输入数据的预测。
  5. 计算损失:使用损失函数loss = criterion(output, target)计算预测输出和目标标签之间的差异。
  6. 梯度归零:在每次迭代开始前,通过optimizer.zero_grad()清空(重置)之前的梯度,以防止梯度累积。
  7. 反向传播:调用loss.backward()计算损失相对于模型参数的梯度。
  8. 参数更新:通过optimizer.step()根据计算得到的梯度更新模型的参数。
posted @ 2024-07-14 22:03  CASTWJ  阅读(31)  评论(0编辑  收藏  举报