机器学习 - 第11页 - 网站分类

线性代数笔记18. 矩阵对角化-二次型

18. 矩阵对角化-二次型 18.1 二次方程的标准化思想在解析几何中，对于二次曲线： \[ax^2+bxy+cy^2=1 \]若需将其标准化，则可通过坐标旋转变换： \[\begin{cases} x=x'cos\theta-y'sin\theta\\ y=x'sin\theta+y'cos\t ...

线性代数笔记17.矩阵对角化-对称阵压缩

17.矩阵对角化-对称阵压缩 17.1 对称阵压缩的思想设存在n阶对称阵A 现需对A中元素进行存储，则由对称阵性质知，A中有效元素个数=\(\frac{n\cdot(n+1)}{2}\)，即共需存储\(\frac{n\cdot(n+1)}{2}\)个元素而由矩阵对角化性质可知，对于n阶对称阵A， ...

09 深度神经网络框架的基础：自动微分

当神经网络的层数增加，结构变复杂后，如果只用纯python（再加Numpy）来实现，代码将变得异常复杂，且难以阅读和调试。此时，就需要引入一些著名的深度学习框架了，比如PyTorch, TensorFlow等。运用这些框架，你往往只需要定义一个神经网络的架构，反向传播过程则是自动完成的，你无需手动 ...

线性代数笔记16. 矩阵对角化-相似矩阵

16.矩阵对角化-相似矩阵 16.1 相似矩阵 16.1.1 相似矩阵的定义设存在n阶矩阵A、B，且存在可逆矩阵P，使： \[\tag{1} P\cdot A\cdot P^{-1}=B \]则称\(矩阵B是A的相似矩阵\)，或\(矩阵A与矩阵B相似\)。称\(P\)为\(相似变换矩阵\) 称\ ...

线性代数笔记15.特征值和特征向量

15 特征值和特征向量 15.1 定义设存在n阶矩阵A: \[A= \begin{bmatrix} a_{11} & a_{12} & a_{13} &...& a_{1n}\\ a_{21} & a_{22} & a_{23} &...& a_{2n}\\ a_{31} & a_{32} & a ...

通俗易懂讲解分类器

1. MLP（多层感知机）——「智能分拣流水线」原理：想象你有一个快递分拣中心，要把包裹分成“电子产品”“衣服”“书籍”三类。MLP就像一条多层流水线：第一层工人（输入层）：只负责记录包裹的基础信息（比如重量、体积、颜色）。中间层工人（隐藏层）：根据基础信息推测更复杂的特征（比如“轻+小 ...

08 梯度消失与梯度爆炸问题

由反向传播原理可知，梯度的计算遵循链式法则。由于网络层数不断加深，梯度的连乘效应可能会导致梯度呈指数形式衰减，又或以指数形式增加。前者叫做梯度消失，梯度消失导致网络中的早期层几乎不更新，使得网络难以学习到输入数据的有效特征。可能导致网络权重更新非常缓慢，使得训练过程变得不稳定。后者叫做梯度爆炸， ...

07 常用优化器简介

模型能否准确地预测数据，是通过损失函数来衡量的。如何调整权重和偏差参数，从而最小化神经网络的损失函数，这是一类特定的优化算法。我们称它们为优化器（optimizer）。为什么需要优化器？因为损失函数参数众多且结构复杂，其导数置零的方程无法得到解析解或计算非常复杂。因此我们需要用迭代的方式逐步调整 ...

线性代数笔记14.施密特正交化

14.施密特正交化 14.1 规范正交化 14.1.1 规范正交化的定义 \[设：存在向量空间V(V \subset R^n) \]\[n维向量A=(a_1,a_2,a_3,...,a_n)是V中的一个基 \]\[若：V中存在一个规范正交基E=(e_1,e_2,e_3...,e_n)，使A与E等价 ...

06 常用损失函数介绍

在前文中我们使用的损失函数都是均方误差（MSE，Mean Squared Error），本篇介绍一些其他的损失函数形式，以及他们的不同用途。 1. 回归任务常用损失函数 1.1 均方误差（MSE, Mean Squared Error）均方误差（MSE）是回归任务中最常用的损失函数之一，用于衡量模 ...

05 过拟合（over-fitting）与正则化（regularization）

1. 什么是Overfitting 我们希望神经网络模型能够找到数据集中的一般规律，从而帮助我们预测未知数据。这个过程是通过不断地迭代优化损失函数（也就是预测值和实际值的误差）而实现的。然而随着误差进一步缩小，模型的“走势”过于“贴合”我们的训练数据，对训练数据中的噪声也过于趋近，把这些噪声数据也学 ...

笔记

前言深度学习已经彻底改变了模式识别，引入了一系列技术，包括计算机视觉、自然语言处理、自动语音识别。要成功地应用深度学习，必须知道（1）如何抛出一个问题（2）建模的数学方法（3）将模型与数据拟合的算法（4）以及实现所有这些的工程技术。这本书提供了一个全面的资源，包括文本、图表、数学和代码，都集中 ...

学习理论：预测器-拒绝器多分类弃权学习

弃权学习（learning with abstention）主要是为了使分类器在学习过程中可能出现的误导性或者不正确的信息时（这常被称为“幻觉”），能够对做出预测进行弃权。目前，弃权学习的方法主要可以分为以下几种：基于置信度的方法（confidence-based methods）。这种方法在预训练... ...

03 常见激活函数详解

在01 深度学习基础及前向神经网络中，我们在讲解前向传播时，向中间层加入了Relu激活函数。我们提到这是为了向模型中添加非线性特性，从而让模型具有更强的表达能力。本篇将继续研究一些常见的激活函数，以及他们不同的特性。 1. 什么是激活函数我们看一个基本的神经网络模型：其中输入的x1，x2，x3三 ...

02 如何训练网络？深入理解反向传播

在01 深度学习基础及前向传播中，我们已经搭建好了一个基础的三层神经网络架构，如图：它由三个输入features：x1、x2、x3，一个输出：y，中间的hidden layer包含两个nodes，采用ReLU作为激活函数。其前向传播的计算过程为：已知的数据如下，输入矩阵x中，列向量对应每一个f ...

01 深度学习基础及前向神经网络

什么是深度学习深度学习（deep learning）、机器学习（machine learning）、神经网络（neural network）以及人工智能（artificial intelligence），这几个概念在我们日常海量的信息来源中常常容易被混淆。我认为以下这幅图能够较为清晰地阐明它们之间 ...

pytorch函数

squeeze() 和 unsqueeze()函数 torch.squeeze(A，N) torch.unsqueeze()函数的作用减少数组A指定位置N的维度，如果不指定位置参数N，如果数组A的维度为（1，1，3）那么执行 torch.squeeze(A，1) 后A的维度变为（1，3），中间的维 ...

定制化训练DeepSeek模型：LoAR、COT推理与SFT技术应用

DeepSeek-R1 模型微调系列 DeepSeek-R1 模型微调系列一. 前言介绍本文内容：1.1 项目背景1.2 LoRA和 QLoRA 简介1.3 LLaMA 架构和 Qwen 架构LLaMA 架构Qwen 架构二. 环境准备2.1 Unsloth 安装（显卡版本-暂时不用）2.2 创建P ...

FunPapers[1]: GBDT和DNN强强联手，表格预测新突破！

论文提出了Tree-hybrid MLP（T-MLP）方法，其核心思想是结合GBDT的特征选择和模型集成优势与DNN的高维特征空间和光滑优化特性，通过张量化GBDT特征门、DNN架构剪枝和反向传播协同训练MLP模型，以实现高效、有效的表数据预测。 ...

TensorFlow2入门与实践--CNN

卷积神经网络CNN CNN原理关于CNN的原理本文使用代码的方式来直观理解卷积中各个操作过程。卷积卷积层是CNN的核心组件，通过可学习的卷积核在输入特征图上进行滑动窗口操作。每个位置上，卷积核与输入进行逐元素乘积并求和，得到输出特征图上的一个值。多个卷积核并行工作可以提取不同的特征模式。卷积层 ...