大模型~高数基础总结

几个核心概念

  • 张量(tensor):张量表示一个由数值组成的数组,这个数组可能有多个维度
  • 标量(scalar):标量由只有一个元素的张量表示,0阶张量
  • 向量(vector):向量可以被视为标量值组成的列表。 这些标量值被称为向量的元素(element)或分量(component),1阶张量
  • 矩阵(matrix):矩阵由行和列组成,正如向量将标量从零阶推广到一阶,矩阵将向量从一阶推广到二阶
  • 导数(derivative) 导数是函数在某一点的瞬时变化率,它描述了函数在该点的斜率。在损失函数的上下文中,导数告诉我们损失函数在某一点的增加或减少速度。
    • 速度是位移对时间的导数
    • 加速度是速度对时间的导数
  • 切线斜率:切线斜率是函数曲线在某一点处的切线的斜率。它表示函数在该点处的瞬时变化率。如果函数f(x)在点x=a处可导,那么切线斜率就是f`(x),即函数的导数
    *几何意义:切线斜率是曲线在某一点处的“陡峭程度”
    *数学定义:切线斜率等于函数在该点处的导数
  • 可微的(differentiable):函数在某个点可微是指该函数在该点的导数存在。换句话说,函数在该点的切线斜率是确定的,且函数在该点的图像没有尖点或断点。
  • 微分(differential calculus):微分学最重要的应用是优化问题,即考虑如何把事情做到最好
    • 微分方程 dy=f′(x) * dx
      • dy 是函数值的微小变化,即微分
      • dx 是自变量的微小变化
      • f`(x)是x点的导数
    • 几何意义:微分表示函数曲线在某一点处的切线方程的增量部分。
    • 与导数的关系:微分是导数的应用形式,导数 f′(x) 是微分的系数。
  • 损失函数(loss function)是衡量模型预测值与实际值之间差异的函数,而导数(derivative)则用于找到损失函数的最小值
  • 积分(integral):积分是导数的逆运算,表示函数在某一区间上的累积效果
    • 位移是速度对时间的积分
    • 功是力对位移的积分

导数

导数是函数在某一点处的变化率,表示函数值随自变量变化的快慢。数学上,导数定义为:

其中:

  • f(x) 是函数。
  • f′(x) 是函数在点 x 处的导数。

几何意义

导数表示函数曲线在某一点处的切线斜率。例如:

  • 如果 f′(x)>0,函数在该点处递增。
  • 如果 f′(x)<0,函数在该点处递减。

物理意义

  • 导数可以表示物理量的变化率。例如:
  • 速度是位移对时间的导数。
    加速度是速度对时间的导数。

切线斜率

切线斜率是微积分中的一个重要概念,用于描述函数曲线在某一点处的局部变化率

什么是切线斜率?

切线斜率是函数曲线在某一点处的切线的斜率。它表示函数在该点处的瞬时变化率。

  • 几何意义:切线斜率是曲线在某一点处的“陡峭程度”。
  • 数学定义:切线斜率等于函数在该点处的导数。

切线斜率的几何意义

  • 切线:切线是曲线在某一点处的“最佳直线近似”,它与曲线在该点处相切。
  • 斜率:切线的斜率表示曲线在该点处的变化趋势:
    • 如果斜率 f′(x)>0,函数在该点处递增。
    • 如果斜率 f′(x)<0,函数在该点处递减。
    • 如果斜率 f′(x)=0,函数在该点处可能有极值(最大值或最小值)。

积分

积分是导数的逆运算,表示函数在某一区间上的累积效果。积分分为定积分和不定积分。

不定积分:求原函数(反导数)

定积分:计算函数在区间 [a,b] 上的累积值。

几何意义

定积分表示函数曲线与 x-轴之间的面积。例如:

  • 如果 f(x)≥0,定积分表示曲线下的面积。
  • 如果 f(x)≤0,定积分表示曲线上的面积(取负值)。

物理意义

积分可以表示物理量的累积效果。例如:

  • 位移是速度对时间的积分。
  • 功是力对位移的积分。

导数和损失函数

导数与损失函数的关系

为了最小化损失函数,我们需要找到损失函数的极小值点。导数在这里起着关键作用,因为极小值点的导数为零。通过计算损失函数的导数并将其设置为零,我们可以找到可能的极小值点。

梯度下降

梯度下降(Gradient Descent)是一种常用的优化算法,它利用导数来最小化损失函数。梯度下降的基本思想是:

  1. 计算损失函数的导数(梯度)。
  2. 沿着导数的反方向更新模型参数。
  3. 重复这个过程,直到找到损失函数的最小值。

总结

导数和损失函数之间的关系是:• 损失函数衡量模型预测值与实际值之间的差异。• 导数描述了损失函数在某一点的瞬时变化率。• 通过计算损失函数的导数并将其设置为零,我们可以找到可能的极小值点。• 梯度下降利用导数来最小化损失函数。

微分

微分是导数的另一种表达形式,表示函数在某一点处的局部线性近似。如果 y=f(x),则微分 dy 定义为:

其中:

  • dy 是函数值的微小变化。
  • dx 是自变量的微小变化。
  • f`(x)是x点的导数

几何意义

微分表示函数曲线在某一点处的切线方程的增量部分。

与导数的关系

微分是导数的应用形式,导数 f′(x) 是微分的系数。

深度学习中的作用

在深度学习中,我们“训练”模型,不断更新它们,使它们在看到越来越多的数据时变得越来越好。 通常情况下,变得更好意味着最小化一个损失函数(loss function), 即一个衡量“模型有多糟糕”这个问题的分数。 最终,我们真正关心的是生成一个模型,它能够在从未见过的数据上表现良好。 但“训练”模型只能将模型与我们实际能看到的数据相拟合。 因此,我们可以将拟合模型的任务分解为两个关键问题:

  • 优化(optimization):用模型拟合观测数据的过程;
  • 泛化(generalization):数学原理和实践者的智慧,能够指导我们生成出有效性超出用于训练的数据集本身的模型。

可微

可微的几何意义

可微的几何意义函数在某个点可微意味着在该点处函数的图像有一条唯一的切线。这条切线的斜率就是函数在该点的导数。

可微与连续的关系

如果函数在某个点可微,那么它在该点也一定是连续的。但是,连续的函数在某个点不一定可微。例如,绝对值函数 f(x) = |x| 在 x = 0 处连续,但不可微,因为该

可微的代数意义

函数在某个点可微意味着函数在该点附近可以用线性函数近似。具体来说,如果 f(x) 在 x = a 处可微,那么f(a+b)≈f(a)+f`(a)h,当h很小时,这个近似非常准确

posted @   张占岭  阅读(27)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
历史上的今天:
2024-02-20 OGP协议的使用
2020-02-20 mybatis+maven自动生成代码框架
2014-02-20 Thrift架构~目录
2014-02-20 WebApi系列~在WebApi中实现Cors访问
2012-02-20 Lucene实用的分词匹配
点击右上角即可分享
微信分享提示