什么是大模型

"大模型"通常指的是深度学习中参数数量庞大、层数深厚的神经网络模型。这些模型具有数十亿甚至上百亿的参数,通常需要大量的计算资源来进行训练和推断。这种规模的模型在处理复杂任务时表现得很出色,因为它们能够从大量的数据中学到更复杂、更抽象的表示。

例如,GPT-3(Generative Pre-trained Transformer 3)就是一个大型的语言模型,它拥有1750亿个参数,是当时最大的自然语言处理模型之一。这种大模型在自然语言处理、图像识别、语音识别等领域取得了显著的成果。

上亿的参数是什么

参数通常包括连接不同神经元的权重和每个神经元的偏差。这些参数是通过反向传播算法和优化算法(如梯度下降)进行调整和更新的。在大规模模型中,这些参数的数量可能非常庞大,上亿的参数意味着模型具有很多层和神经元。

看下简单的模型有多少参数

import torch
import torch.nn as nn

class MLPModel(nn.Module):
    def __init__(self, input_size):
        super(MLPModel, self).__init__()
        self.fc1 = nn.Linear(input_size, 128)
        self.fc2 = nn.Linear(128, 64)
        self.fc3 = nn.Linear(64, 2)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x).float()
        x = self.sigmoid(x)
        return x

# 创建模型实例
model = MLPModel(input_size=700)

# 统计模型参数数量
total_params = sum(p.numel() for p in model.parameters())
print("Total parameters:", total_params)
Total parameters: 98114z

怎么计算参数的?

一个全连接层的参数数量是 (输入特征数量 * 输出特征数量) + 输出特征数量

700*128+128 = 89728

128*64+64 = 8256

64*2+2 = 130

GPT-2源码

https://github.com/openai/gpt-2

他是怎么设计模型的

 

他是怎么训练的

上亿的参数是怎么设计神经网络的。transformer预训练的时候,怎么处理那些数据,怎么传递到模型?

 

posted on 2023-11-14 22:48  黑逍逍  阅读(182)  评论(0编辑  收藏  举报