01 2021 档案

摘要:什么是线性回归 不同于分类问题的待预测变量为离散变量,回归问题中待预测变量即因变量为连续变量。人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。 线性回归假设自变量与因变量之间存在 阅读全文
posted @ 2021-01-31 20:09 1033020837 阅读(2019) 评论(0) 推荐(0) 编辑
摘要:什么是BERT BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,其结构采用Transformer的Encoder部分,主要创新点都在pre-train方法上,即用了Masked L 阅读全文
posted @ 2021-01-29 21:30 1033020837 阅读(511) 评论(0) 推荐(0) 编辑
摘要:什么是聚类算法 聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。 阅读全文
posted @ 2021-01-28 17:38 1033020837 阅读(879) 评论(0) 推荐(0) 编辑
摘要:深度学习中的优化问题通常指的是:寻找神经网络上的一组参数$\theta$,它能显著地降低代价函数$J(\theta)$。 这里介绍的方法都基于以下两点: 梯度的负方向是函数在当前点减小最快的方向; 使用一阶泰勒展开式近似当前点的函数值,即: \[ f(x)\approx f(x_0)+f'(x_0) 阅读全文
posted @ 2021-01-27 18:00 1033020837 阅读(393) 评论(0) 推荐(0) 编辑
摘要:Transformer是什么 Transformer是Google在2017年的论文《Attention Is All You Need》中所提出的一种Seq2Seq的模型,该模型完全的抛弃了以往深度学习所使用的CNN、RNN等结构而全部使用Attention结构。Transformer的效果和并行 阅读全文
posted @ 2021-01-26 15:22 1033020837 阅读(383) 评论(0) 推荐(0) 编辑
摘要:什么是Seq2Seq Seq2Seq模型,全称Sequence to sequence,由Encoder和Decoder两个部分组成,每部分都是一个RNNCell(RNN、LSTM、GRU等)结构。Encoder将一个序列编码为一个固定长度的语义向量,Decoder将该语义向量解码为另一个序列。输入 阅读全文
posted @ 2021-01-25 14:59 1033020837 阅读(357) 评论(0) 推荐(0) 编辑
摘要:什么是CNN 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。CNN最常用于CV领域,但是在NLP等其 阅读全文
posted @ 2021-01-24 15:43 1033020837 阅读(559) 评论(0) 推荐(0) 编辑
摘要:什么是TextCNN Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN,该模型将卷积神经网络CNN应用到文本分类任务,是卷积神经网络应用到文本分析的开创性工作之⼀。 T 阅读全文
posted @ 2021-01-23 12:55 1033020837 阅读(277) 评论(0) 推荐(0) 编辑
摘要:什么是FastText FastText是Facebook于2016年开源的一个词向量计算和文本分类工具,它提出了子词嵌入的方法,试图在词嵌入向量中引入构词信息。一般情况下,使用fastText进行文本分类的同时也会产生词的embedding,即embedding是fastText分类的产物。 Fa 阅读全文
posted @ 2021-01-22 16:20 1033020837 阅读(420) 评论(0) 推荐(0) 编辑
摘要:什么是GloVe GloVe(Global Vectors for Word Representation)是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这 阅读全文
posted @ 2021-01-22 13:36 1033020837 阅读(778) 评论(0) 推荐(0) 编辑
摘要:词嵌入要解决什么问题 在自然语言系统中,词被看作最为基本的单元,如何将词进行向量化表示是一个很基本的问题,词嵌入(word embedding)就是把词映射为低维实数域向量的技术。 下面先介绍几种词的离散表示技术,然后总结其缺点,最后介绍词的分布式表示及其代表技术(word2vec)。 词的离散表示 阅读全文
posted @ 2021-01-21 16:15 1033020837 阅读(500) 评论(0) 推荐(0) 编辑
摘要:LSTM简介 LSTM是RNN的一种变体,引入了门控单元,旨在减缓RNN中的梯度消失现象,使得模型能够建模长距离的依赖关系。LSTM的结构图如下: 对比原始的RNN,LSTM中存在两种在不同时刻间传递的状态,分别为单元状态$c_t$以及隐藏状态$h_t$,其中$c_t$被用于保存长期记忆。 LSTM 阅读全文
posted @ 2021-01-20 13:03 1033020837 阅读(416) 评论(0) 推荐(0) 编辑
摘要:什么是RNN RNN(循环神经网络)是一种用于处理时序数据的特殊结构的神经网络。所谓时序数据,是指句子、语音、股票这类具有时间顺序或者是逻辑顺序的序列数据。 RNN的折叠图和展开图为: RNN的参数为U、W和V三个矩阵,其中U为输出到隐藏层的参数矩阵,W为上一个时刻到当前时刻的参数矩阵,V为隐藏层到 阅读全文
posted @ 2021-01-18 21:48 1033020837 阅读(420) 评论(0) 推荐(0) 编辑
摘要:什么是神经网络 逻辑回归、感知机均只包含一个输入层以及一个输出层,只能处理线性可分问题。如果在输入层与输出层之间加入一层到多层的隐藏层,就会得到神经网络结构。 神经网络一般由输入层、隐藏层、输出层构成,下图展示了其一般结构: 隐藏层之所称之为隐藏层,是因为在训练集中,这些中间结点的准确值我们是不知道 阅读全文
posted @ 2021-01-12 21:36 1033020837 阅读(670) 评论(0) 推荐(0) 编辑
摘要:为什么使用LSTM+CRF进行序列标注 直接使用LSTM进行序列标注时只考虑了输入序列的信息,即单词信息,没有考虑输出信息,即标签信息,这样无法对标签信息进行建模,所以在LSTM的基础上引入一个标签转移矩阵对标签间的转移关系进行建模。这一点和传统CRF很像,CRF中存在两类特征函数,一类是针对观测序 阅读全文
posted @ 2021-01-09 00:23 1033020837 阅读(471) 评论(0) 推荐(0) 编辑
摘要:什么是XGBoost XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进。XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted。 先来举个例子,我们要预测一家人对电子游戏的喜好程 阅读全文
posted @ 2021-01-09 00:17 1033020837 阅读(396) 评论(0) 推荐(0) 编辑
摘要:什么是随机森林 自助法(Bootstrap Method,Bootstrapping,或自助抽样法、拔靴法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。 Bagging思想 Bagging(bootstrap aggregating) 阅读全文
posted @ 2021-01-09 00:10 1033020837 阅读(350) 评论(0) 推荐(0) 编辑
摘要:什么是CRF CRF是给定随机变量X的条件下,随机变量Y的马尔科夫随机场(概率无向图)。 这里主要介绍在线性链上的特殊的条件随机场,称为线性链条件随机场,可用于序列标注等问题。 线性链条件随机场如下图所示,输出变量仅与输入变量以及相邻输出变量有连线。 CRF的参数化表示 CRF通常存在两类特征函数, 阅读全文
posted @ 2021-01-09 00:08 1033020837 阅读(372) 评论(0) 推荐(0) 编辑
摘要:隐马尔可夫模型的定义 隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可检测的状态随机序列(状态序列),再由各个状态生成一个观测而产生观测随机序列(观测序列)。 隐马尔可夫模型由初始概率分布、状态转移概率分布、观测概率分布确定。 设$Q={q_1,q_2,...,q_N}$为 阅读全文
posted @ 2021-01-09 00:06 1033020837 阅读(385) 评论(0) 推荐(1) 编辑
摘要:什么是EM算法 EM算法用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。 EM算法详细过程: 输入:观测变量数据Y,隐变量数据Z,联合分布$P(Y,Z|\theta)$,条件分布$P(Z|Y,\theta)$; 输出:模型参数$\theta$. 选择参数的初值$\theta^{(0) 阅读全文
posted @ 2021-01-09 00:05 1033020837 阅读(336) 评论(0) 推荐(1) 编辑
摘要:什么是GBDT Boosting思想 Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。 Bagging与Boosting的串行训 阅读全文
posted @ 2021-01-09 00:02 1033020837 阅读(231) 评论(0) 推荐(0) 编辑
摘要:什么是AdaBoost 标准AdaBoost关注二分类问题,AdaBoost通过训练一系列的弱分类器来组成一个强分类器,每一轮训练时会提高前一轮弱分类器错误分类样本的权值,而降低那些被正确分类的样本的权值。模型最后的预测结果为各弱分类器预测结果的加权多数表决结果。 AdaBoost算法具体流程: 输 阅读全文
posted @ 2021-01-09 00:00 1033020837 阅读(253) 评论(0) 推荐(0) 编辑
摘要:导出SVM要优化的问题 对于上图中这样一个二分类线性可分问题,期望找到一个分类超平面将正负类分开,SVM就是一个用来寻找这样的分类超平面的算法。 定义正负类的标签分别为1、-1,分类超平面的表达式为$f(x)=w^Tx+b$,其中x为样本向量,w、b分别为超平面的权重以及偏置项。可以由$f(x)$的 阅读全文
posted @ 2021-01-08 23:59 1033020837 阅读(518) 评论(0) 推荐(0) 编辑
摘要:最大熵原理 最大熵原理是概率模型学习的一个准则,其认为学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。 通常用约束条件来确定概率模型的集合,然后在集合中选择熵最大的模型。 直观地,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的 阅读全文
posted @ 2021-01-08 23:41 1033020837 阅读(521) 评论(0) 推荐(0) 编辑
摘要:什么是逻辑回归? 逻辑回归一般指二项逻辑回归,是一种用于二分类的判别式模型。 设输入样本为$x\in\mathbb^n$,样本标签$y\in{0,1}$逻辑回归的参数为:\(w\in\mathbb{R}^n, b\in\mathbb{R}\),逻辑回归按照下式得到样本属于标签1的概率: \[ p=\ 阅读全文
posted @ 2021-01-08 23:39 1033020837 阅读(385) 评论(0) 推荐(0) 编辑
摘要:什么是决策树 ​ 决策树表示基于特征对实例进行分类的树形结构,从给定的训练数据集中,递归选择最优划分特征,依据此特征对训练数据集进行划分,直到结点符合停止条件。决策树可以看作是一系列 if-then 规则的集合。 停止条件 当前结点所有样本属于同一类别。 当前结点属性集为空,或者是所有样本在所有属性 阅读全文
posted @ 2021-01-08 23:24 1033020837 阅读(529) 评论(0) 推荐(0) 编辑
摘要:什么是朴素贝叶斯 朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。 给定训练集$T={(x_1,y_1),(x_2,y_2),..,(x_N,y_N)}$,设类别可选数目为K,即$c_1,c_2,...,c_K$,特征维度为m,即$x_i=(x_i1,x_i2,...x_im)$,第j维的特 阅读全文
posted @ 2021-01-08 23:22 1033020837 阅读(593) 评论(0) 推荐(0) 编辑
摘要:什么是感知机 感知机是一个二分类线性判别模型,假设输入$x\in \mathbb^n$,输出$y\in{-1,+1}$,感知机为如下函数: \[ f(x)=sign(w^Tx+b), \\sign(z)=\left\{\begin{aligned} 1 \qquad \quad x\ge0\\ -1 阅读全文
posted @ 2021-01-08 23:21 1033020837 阅读(901) 评论(0) 推荐(0) 编辑
摘要:什么是KNN KNN(K近邻)算法:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。 KNN使用的模型实际上对应于特征空间的划分,没有显式的训练过程。 KNN三要素 距离度量 特征空间中两个实例点的距离是两个实例点 阅读全文
posted @ 2021-01-08 23:16 1033020837 阅读(427) 评论(0) 推荐(0) 编辑