摘要:
介绍一个复杂的机器学习系统如何组成 一、照片光学字符识别(Photo Optical Character Recognition,photo OCR) 如查找图片时,输入照片上存在的词语就可以将该照片搜索出来。 OCR步骤:文本检测、字符分割、字符分类(识别) 其中第3步可以利用之前学习的神经网络进 阅读全文
摘要:
1. 基于内容的推荐系统(Content-based recommender systems) 如将每部电影的内容划分为爱情元素(romance) $x_1$ +动作元素(action)$x_2$ ,并且有一定的数值描述该电影成分。根据用户对电影的评价分数及相应电影的内容分布情况训练某个用户对于电影 阅读全文
摘要:
例:飞机引擎检测、欺诈检测(用户的网站行为检测) 一、高斯分布 $X\sim N(\mu,\sigma^2)$ $p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})$ 参数估计:估计参数 $\ 阅读全文
摘要:
一、无监督学习 定义:训练数据不带有任何标签。算法的目的是找到数据本身具有的结构特征。 经典的算法:聚类(cluster)、降维(dimensionality reduction) 二、K-means 聚类 2.1 算法步骤: Input: K(簇的数量) 无标签训练集${x^{(1)},x^{(2 阅读全文
摘要:
应用于大数据集较为合适的两种算法:随机梯度下降 和 mini-batch 梯度下降。 一、随机梯度下降(stochastic gradient descent) 由于之前实现梯度下降时,每次迭代都需要考虑所有样本,因此也称为批量梯度下降(batch gradient descent)。如 $\the 阅读全文
摘要:
一、非线性假设 当输入特征数量非常大时,线性假设不再适用。 二、神经元与大脑 “神经重接实验”: 让处理听觉的神经断开,转而接上视觉神经的信息输入,听觉神经会学会“看到”东西。也许存在一种学习算法,可以同时实现对视觉、听觉、触觉等的处理,让大脑自己学习如何处理不同的数,而不用大量不同的算法分开处理。 阅读全文
摘要:
SVM 也被称作大间距分类器。对非线性分类有较好的处理。SVM处理的问题都是凸优化问题,因此找到的几乎都是全局最优值。而神经网络存在局部最优的问题。 一、优化目标 Support vector machine Hypothesis(SVM的数学定义) 二、SVM的直观解释 假设中的 $C$ 作用等效 阅读全文
摘要:
一、评估假设(欠拟合/过拟合) 划分数据集 随机划分选取数据(若数据本身已经是随机分布的,则取前70%和后30%即可) 训练集 : 测试集 = 7 : 3 对线性/逻辑回归评估 从训练集学习到参数 $\theta$ 计算测试集误差 $J_{test}(\theta)$ 对于线性回归: $J_{\te 阅读全文
摘要:
一、欠/过拟合问题(Under fitting/Overfitting Problem) 欠拟合 拟合偏差非常大,用于预测时误差也会非常大。 过拟合 方差非常大,即拟合曲线与训练数据拟合得非常好以至于曲线非常复杂,导致缺乏足够的数据来约束,不能很好地泛化到新的样本数据中。 解决拟合问题 减少特征的数 阅读全文
摘要:
一、分类问题介绍 $y\in{0,1}$ 0: Negative Class 1: Positive Class 例子:邮件分类;肿瘤分类; Logistic Regression的特点 其预测值介于0-1间,而不会大于1或小于0 事实上并不是回归,而是分类,命名属于历史问题 二、Logistic 阅读全文
摘要:
一、模型描述 建立y关于x的线性函数 Hypothesis Function:$H_\theta(x)=\theta_0+\theta_1 x$ 用$H_\theta(x)$来拟合y与x的关系 Parameters:$\theta_0,\theta_1$ 需要估计的参数 Cost Function: 阅读全文
摘要:
声明:本系列十二篇文章均为[中英字幕]吴恩达机器学习系列课程_哔哩哔哩_bilibili学习笔记,另外收集了课程相关课件、作业原题及参考源码,以及我的笔记原文件,已经放在我的github上,欢迎大家取用~ 侵删~ 一、概述 学习算法是一组工具,如何正确使用这些工具是最重要的 定义:计算机从经验E中学 阅读全文
摘要:
Reference:《一份(不太)简短的LaTeX介绍》 注意事项: 蓝色的命令依赖 amsmath 宏包(非 amssymb 宏包) 带有角标 ℓ 的符号命令依赖 latexsym 宏包 1. $\LaTeX$ 普通符号 2. $\mathcal{AMS}$ 符号 本小节所有符号依赖 amssym 阅读全文
摘要:
接触到通信中的下行链路预编码,其中很多线性预编码方法涉及到矩阵求逆,而矩阵求逆的计算复杂度随着维度增加而剧增,因此出现了很多基于矩阵分解的简化求逆方法。在总结预编码方法时发现当时学线性代数好像只接触了LU分解和SVD分解,故在此对常见的一些矩阵分解算法做个记录以便查询。后续也许会系统学习矩阵计算相关 阅读全文
摘要:
非线性规划的最优解所满足的必要条件和充分条件(仅包含定理) 注意:文中很多地方的变量其实是矢量,比如方向 $d$ 和梯度,为了方便写都没有写粗体。 一、无约束问题的最优性条件 定理 7.1.1 (其它定理证明需要的基础定理) 设函数 $f(x)$ 在点 $\bar{x}$ 处可微,如果存在方向 ${ 阅读全文
摘要:
对偶问题的意义在于无论原问题是凸还是非凸,对偶问题都是凸优化问题。通过将原问题转化为对偶问题,有将复杂问题简单化的可能性,并能够求得原问题的全局最优解。 一、线性规划中的对偶理论 1.1 对偶的三种形式 对称形式的对偶(只包含不等式约束) 原问题 $$ \begin{array}{ll} \min 阅读全文
摘要:
基本思想:通过构造惩罚函数将约束问题转化为无约束问题,进而用无约束最优化方法求解。主要分为内点法和外点法。 注意:罚函数法对目标函数的凹凸性没有要求,且结合启发式算法(如遗传算法、蚁群算法、禁忌搜索等)几乎可以求解任何问题。因为启发式算法无需目标函数的梯度等信息。 一、惩罚函数 约束优化问题 $$ 阅读全文
摘要:
拟牛顿法的基本思想是用不包含二阶导数的矩阵近似牛顿法中的 Hessian 矩阵的逆矩阵,从而避免计算二阶导。拟牛顿法具有二次终止性,且对于一般情形具有 n 步二级收敛速率。缺点是所需存储量较大。是求解无约束最优化问题最有效的一类方法。 一、拟牛顿条件 牛顿法的迭代公式为: $$ \boldsymbo 阅读全文
摘要:
最速下降法、牛顿法、共轭梯度法均为线搜索法,其一般策略是给定点 $\boldsymbol{x}^{(k)}$ 后,定义搜索方向 $\boldsymbol{d}^{(k)}$ ,并沿着该方向进行一维搜索。而信赖域法的搜索范围是一个以 $\boldsymbol{x}^{(k)}$ 为中心的球域(信赖域) 阅读全文
摘要:
三者都是基于导数的迭代优化方法,用于求解无约束优化问题。 代码:https://github.com/321hjd/ImageBed/tree/main/code/NumericalOptimization/derivative-basedOptimization 一、最速下降法 1.1 原理 基本 阅读全文