LLM推理过程和优化技术

一、基础说明

总体说明

很好的指标说明

 

二、相关知识点

  • LLM推理的过程是一个自回归的过程。

  自回归(Autoregressive,简称AR)过程是一种统计模型,用于描述时间序列数据中的依赖关系。在自然语言处理(NLP)中,自回归过程被广泛应用于生成任务,如文本生成、机器翻译等。大语言模型(如GPT-3)在生成文本时,采用的就是自回归过程。下面详细介绍自回归过程及其在大语言模型中的应用。

 

  自回归过程的基本概念
  自回归过程的核心思想是,当前时刻的值可以用前几个时刻的值来预测。

  数学上,自回归模型可以表示为:

  [ X_t = c + \sum_{i=1}^{p} \phi_i X_{t-i} + \epsilon_t ]

  其中:

  ( X_t ) 是时间序列在时刻 ( t ) 的值。
  ( c ) 是常数项。
  ( \phi_i ) 是自回归系数。
  ( p ) 是模型的阶数,即前几个时刻的值被用来预测当前值。
  ( \epsilon_t ) 是白噪声,表示误差项。


  自回归过程在大语言模型中的应用
  在大语言模型中,自回归过程用于生成文本。具体来说,模型根据前面的词或字符来预测下一个词或字符。以下是自回归过程在大语言模型中的详细步骤:

  1. 输入序列:模型接收一个初始的输入序列,通常是一个或多个词或字符。例如,输入序列为 "The cat".
  2. 预测下一个词:模型根据输入序列预测下一个词。例如,模型可能预测下一个词是 "sat".
  3. 更新序列:将预测的词添加到输入序列中,形成新的序列。例如,新的序列为 "The cat sat".
  4. 重复过程:重复步骤2和步骤3,直到生成完整的句子或达到预定的长度。

 

  数学表示
  假设我们有一个词汇表 ( V ),输入序列为 ( x_1, x_2, \ldots, x_t )。模型的目标是根据前面的词预测下一个词 ( x_{t+1} )。自回归过程可以表示为:

  [ P(x_{t+1} | x_1, x_2, \ldots, x_t) ]

  模型通过最大化条件概率来生成下一个词。整个句子的生成过程可以表示为:

  [ P(x_1, x_2, \ldots, x_T) = \prod_{t=1}^{T} P(x_t | x_1, x_2, \ldots, x_{t-1}) ]

 

  优点和缺点
  优点:

    • 灵活性:自回归模型可以处理任意长度的输入序列。
    • 高效性:在生成过程中,每一步只需要考虑前面的词,计算量相对较小。

  缺点:

    • 依赖性:生成的每个词都依赖于前面的词,错误可能会累积。
    • 并行性差:由于生成过程是逐步进行的,难以并行化。

 

  • 什么是batch size?  

  Batch Size是指在机器学习模型训练过程中,每次输入给模型进行训练的数据量大小。通俗地说,batch size就是将大量数据分割成若干个小批量数据,每次使用这些小批量数据进行模型的训练和更新参数。

   训练数据通常被分成一批一批(batch)进行训练,每个batch包含多个样本,而batch size则是一个batch中样本的数量。在训练模型时,batch size大小对训练有着重要的影响。

   https://fuxi.163.com/database/1041

 

  • 什么是Epoch?

  Epoch是指在整个数据集上进行一次完整的迭代。在深度学习模型的训练过程中,epoch数量的增加可以更好地训练模型,提高其泛化能力和准确率。但是,随着epoch数量的增加,训练时间也会相应延长,同时可能会出现过拟合问题。因此,选择合适的epoch数量是非常重要的。

  https://developer.baidu.com/article/details/1929727

posted @ 2024-04-05 11:45  johnny_zhao  阅读(60)  评论(0编辑  收藏  举报