随笔分类 - 深度学习
摘要:一、线性支持向量机解决的问题 线性可分支持向量机只支持线性可分的训练数据,通过硬间隔最大化实现分类数据;如果训练数据不是线性可分的,我们就需要使用线性支持向量机的方法,去除其中的一些异常点,从而实现剩余样本点的线性可分;相应于硬间隔最大化,它称为软间隔最大化; 二、线性支持向量机的数学模型 为了弥
阅读全文
摘要:一、支持向量机简介 支持向量机(support vector machines,SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。当训练数据线性可分时,通过硬间隔最大化(hard mar
阅读全文
摘要:一、什么是模型复杂度 机器学习是通过学习训练集的数据从而得到具体的模型,最终达到预测未知数据的能力;这就涉及到模型对训练数据的拟合能力了;从数理统计的角度来看,不同的训练数据集会有不同的概率分布规律;只有我们的模型的具有表达训练集的数据分布规律的能力才能训练得到一个好的模型,而模型的这个能力就是模型
阅读全文
摘要:一、从生活角度来理解朴素贝叶斯算法 朴素贝叶斯算法是统计学味道最浓的一款算法,也是最能体现我们日常生活经验的算法; 与我们读万卷书行万里路形成我们自己的生活经验类似,朴素贝叶斯算法也是基于收集的历史数据分析得到相关事情发生的原因,从而形成解决问题的模型; 与我们面对未知的未来类似,基于自己的生活经验
阅读全文
摘要:决策树算法是一种通用的机器学习算法,既可以执行分类也可以执行回归任务,同时也是一种可以拟合复杂数据集的功能强大的算法; 一、可视化决策树模型 通过以下代码,我们使用iris数据集构建一个决策树模型,我们使用数据的后两个维度并设置决策树的最大深度为2,最后通过export出iris_tree.dot文
阅读全文
摘要:一、K近邻算法简介 K近邻算法(K-Nearest Neighbor)简称KNN算法,是最简单的预测模型之一,它没有多少数学上的假设,也不要求任何复杂的处理,它所要求的只有以下两点 1.某种距离计算概念 2.彼此接近的点具有相似的性质 即对于一个新样本,算法在已有数据中寻找与它最相似的K个数据,或者
阅读全文
摘要:一、问题源起 从以下的异常堆栈可以看到是BLAS程序集初始化失败,可以看到是执行MatMul的时候发生的异常,基本可以断定可能数据集太大导致memory不够用了。 2021-08-10 16:38:04.917501: E tensorflow/stream_executor/cuda/cuda_b
阅读全文
摘要:“图”是客观世界物体反射或透射光的分布,是客观世界的反映;而“像”则是人类视觉系统对图的响应,是人的大脑对图的印象或认识,是人的一种感觉。图像(image)是图和像的有机结合,既反映物体的客观存在,又体现人的感知因素。 一幅图像可表示成一个范围有限二维空间内幅值有限的函数,其数学表达为:[插图]其中
阅读全文
摘要:一、机器学习的四个分支 前边我们已经学习了深度学习的分类问题,其目标是通过学习输入的训练数据和标签,来学习两者之间的关系,这是典型的监督学习。 机器学习算法大致可以分为四类 * 监督学习 监督学习将输入的样本数据映射到标注的标记,是目前最常见的机器学习类型。 目前广受关注的深度学习几乎都属于监督学习
阅读全文
摘要:平时除了遇到二分类问题,碰到最多的就是多分类问题,例如我们发布blogs时候选择的tag等。如果每个样本只关联一个标签则是单标签多分类,如果每个样本可以关联多个样本,则是多标签多分类。今天我们来看下新闻的多分类问题。 一、数据集 这里使用路透社在1986年发布的数据集,它包含很多的短新闻及其对应的主
阅读全文
摘要:二分类问题可能是应用最广泛的机器学习问题。今天我们将学习根据电影评论的文字内容将其划分为正面或负面。 一、数据集来源 我们使用的是IMDB数据集,它包含来自互联网电影数据库(IMDB)的50000条严重两极分化的评论。为了避免模型过拟合只记住训练数据,我们将数据集分为用于训练的25000条评论与用于
阅读全文
摘要:深度学习是一个比较复杂的体系,今天记录一下开发环境的搭建步骤。 全新安装Ubuntu 20.10,系统默认安装的是python3,查看python的版本; mango@ubuntu:~$ python3 --version Python 3.8.6 接下来我们安装pip3 mango@ubuntu:
阅读全文