2021 年 1月随笔档案 - 1033020837

线性回归

摘要：什么是线性回归不同于分类问题的待预测变量为离散变量，回归问题中待预测变量即因变量为连续变量。人们在测量事物的时候因为客观条件所限，求得的都是测量值，而不是事物真实的值，为了能够得到真实值，无限次的进行测量，最后通过这些测量数据计算回归到真实值，这就是回归的由来。线性回归假设自变量与因变量之间存在阅读全文

posted @ 2021-01-31 20:09 1033020837 阅读(2019) 评论(0) 推荐(0) 编辑

BERT

摘要：什么是BERT BERT的全称是Bidirectional Encoder Representation from Transformers，是Google2018年提出的预训练模型，其结构采用Transformer的Encoder部分，主要创新点都在pre-train方法上，即用了Masked L 阅读全文

posted @ 2021-01-29 21:30 1033020837 阅读(511) 评论(0) 推荐(0) 编辑

聚类算法

摘要：什么是聚类算法聚类是一种机器学习技术，它涉及到数据点的分组。给定一组数据点，我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上，同一组中的数据点应该具有相似的属性和/或特征，而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法，是许多领域中常用的统计数据分析技术。阅读全文

posted @ 2021-01-28 17:38 1033020837 阅读(879) 评论(0) 推荐(0) 编辑

深度学习中的优化算法

摘要：深度学习中的优化问题通常指的是：寻找神经网络上的一组参数$\theta$，它能显著地降低代价函数$J(\theta)$。这里介绍的方法都基于以下两点：梯度的负方向是函数在当前点减小最快的方向；使用一阶泰勒展开式近似当前点的函数值，即： \[ f(x)\approx f(x_0)+f'(x_0) 阅读全文

posted @ 2021-01-27 18:00 1033020837 阅读(393) 评论(0) 推荐(0) 编辑

Transformer

摘要：Transformer是什么 Transformer是Google在2017年的论文《Attention Is All You Need》中所提出的一种Seq2Seq的模型，该模型完全的抛弃了以往深度学习所使用的CNN、RNN等结构而全部使用Attention结构。Transformer的效果和并行阅读全文

posted @ 2021-01-26 15:22 1033020837 阅读(383) 评论(0) 推荐(0) 编辑

Seq2Seq

摘要：什么是Seq2Seq Seq2Seq模型，全称Sequence to sequence，由Encoder和Decoder两个部分组成，每部分都是一个RNNCell（RNN、LSTM、GRU等）结构。Encoder将一个序列编码为一个固定长度的语义向量，Decoder将该语义向量解码为另一个序列。输入阅读全文

posted @ 2021-01-25 14:59 1033020837 阅读(357) 评论(0) 推荐(0) 编辑

CNN

摘要：什么是CNN 卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。CNN最常用于CV领域，但是在NLP等其阅读全文

posted @ 2021-01-24 15:43 1033020837 阅读(559) 评论(0) 推荐(0) 编辑

TextCNN

摘要：什么是TextCNN Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN，该模型将卷积神经网络CNN应用到文本分类任务，是卷积神经网络应用到文本分析的开创性工作之⼀。 T 阅读全文

posted @ 2021-01-23 12:55 1033020837 阅读(277) 评论(0) 推荐(0) 编辑

词嵌入之FastText

摘要：什么是FastText FastText是Facebook于2016年开源的一个词向量计算和文本分类工具，它提出了子词嵌入的方法，试图在词嵌入向量中引入构词信息。一般情况下，使用fastText进行文本分类的同时也会产生词的embedding，即embedding是fastText分类的产物。 Fa 阅读全文

posted @ 2021-01-22 16:20 1033020837 阅读(420) 评论(0) 推荐(0) 编辑

词嵌入之GloVe

摘要：什么是GloVe GloVe（Global Vectors for Word Representation）是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这阅读全文

posted @ 2021-01-22 13:36 1033020837 阅读(778) 评论(0) 推荐(0) 编辑

词嵌入之Word2Vec

摘要：词嵌入要解决什么问题在自然语言系统中，词被看作最为基本的单元，如何将词进行向量化表示是一个很基本的问题，词嵌入（word embedding）就是把词映射为低维实数域向量的技术。下面先介绍几种词的离散表示技术，然后总结其缺点，最后介绍词的分布式表示及其代表技术（word2vec）。词的离散表示阅读全文

posted @ 2021-01-21 16:15 1033020837 阅读(500) 评论(0) 推荐(0) 编辑

LSTM和GRU

摘要：LSTM简介 LSTM是RNN的一种变体，引入了门控单元，旨在减缓RNN中的梯度消失现象，使得模型能够建模长距离的依赖关系。LSTM的结构图如下：对比原始的RNN，LSTM中存在两种在不同时刻间传递的状态，分别为单元状态$c_t$以及隐藏状态$h_t$，其中$c_t$被用于保存长期记忆。 LSTM 阅读全文

posted @ 2021-01-20 13:03 1033020837 阅读(416) 评论(0) 推荐(0) 编辑

RNN

摘要：什么是RNN RNN（循环神经网络）是一种用于处理时序数据的特殊结构的神经网络。所谓时序数据，是指句子、语音、股票这类具有时间顺序或者是逻辑顺序的序列数据。 RNN的折叠图和展开图为： RNN的参数为U、W和V三个矩阵，其中U为输出到隐藏层的参数矩阵，W为上一个时刻到当前时刻的参数矩阵，V为隐藏层到阅读全文

posted @ 2021-01-18 21:48 1033020837 阅读(420) 评论(0) 推荐(0) 编辑

神经网络

摘要：什么是神经网络逻辑回归、感知机均只包含一个输入层以及一个输出层，只能处理线性可分问题。如果在输入层与输出层之间加入一层到多层的隐藏层，就会得到神经网络结构。神经网络一般由输入层、隐藏层、输出层构成，下图展示了其一般结构：隐藏层之所称之为隐藏层，是因为在训练集中，这些中间结点的准确值我们是不知道阅读全文

posted @ 2021-01-12 21:36 1033020837 阅读(670) 评论(0) 推荐(0) 编辑

LSTM+CRF进行序列标注

摘要：为什么使用LSTM+CRF进行序列标注直接使用LSTM进行序列标注时只考虑了输入序列的信息，即单词信息，没有考虑输出信息，即标签信息，这样无法对标签信息进行建模，所以在LSTM的基础上引入一个标签转移矩阵对标签间的转移关系进行建模。这一点和传统CRF很像，CRF中存在两类特征函数，一类是针对观测序阅读全文

posted @ 2021-01-09 00:23 1033020837 阅读(471) 评论(0) 推荐(0) 编辑

XGBoost

摘要：什么是XGBoost XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进。XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted。先来举个例子，我们要预测一家人对电子游戏的喜好程阅读全文

posted @ 2021-01-09 00:17 1033020837 阅读(396) 评论(0) 推荐(0) 编辑

随机森林

摘要：什么是随机森林自助法（Bootstrap Method，Bootstrapping，或自助抽样法、拔靴法）是一种从给定训练集中有放回的均匀抽样，也就是说，每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中。 Bagging思想 Bagging(bootstrap aggregating) 阅读全文

posted @ 2021-01-09 00:10 1033020837 阅读(350) 评论(0) 推荐(0) 编辑

CRF

摘要：什么是CRF CRF是给定随机变量X的条件下，随机变量Y的马尔科夫随机场（概率无向图）。这里主要介绍在线性链上的特殊的条件随机场，称为线性链条件随机场，可用于序列标注等问题。线性链条件随机场如下图所示，输出变量仅与输入变量以及相邻输出变量有连线。 CRF的参数化表示 CRF通常存在两类特征函数，阅读全文

posted @ 2021-01-09 00:08 1033020837 阅读(372) 评论(0) 推荐(0) 编辑

隐马尔可夫模型

摘要：隐马尔可夫模型的定义隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可检测的状态随机序列（状态序列），再由各个状态生成一个观测而产生观测随机序列（观测序列）。隐马尔可夫模型由初始概率分布、状态转移概率分布、观测概率分布确定。设$Q={q_1,q_2,...,q_N}$为阅读全文

posted @ 2021-01-09 00:06 1033020837 阅读(385) 评论(0) 推荐(1) 编辑

EM算法

摘要：什么是EM算法 EM算法用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。 EM算法详细过程：输入：观测变量数据Y，隐变量数据Z，联合分布$P(Y,Z|\theta)$，条件分布$P(Z|Y,\theta)$；输出：模型参数$\theta$. 选择参数的初值$\theta^{(0) 阅读全文

posted @ 2021-01-09 00:05 1033020837 阅读(336) 评论(0) 推荐(1) 编辑

GBDT

摘要：什么是GBDT Boosting思想 Boosting方法训练基分类器时采用串行的方式，各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前一层基分类器分错的样本，给予更高的权重。测试时，根据各层分类器的结果的加权得到最终结果。 Bagging与Boosting的串行训阅读全文

posted @ 2021-01-09 00:02 1033020837 阅读(231) 评论(0) 推荐(0) 编辑

AdaBoost

摘要：什么是AdaBoost 标准AdaBoost关注二分类问题，AdaBoost通过训练一系列的弱分类器来组成一个强分类器，每一轮训练时会提高前一轮弱分类器错误分类样本的权值，而降低那些被正确分类的样本的权值。模型最后的预测结果为各弱分类器预测结果的加权多数表决结果。 AdaBoost算法具体流程：输阅读全文

posted @ 2021-01-09 00:00 1033020837 阅读(253) 评论(0) 推荐(0) 编辑

SVM

摘要：导出SVM要优化的问题对于上图中这样一个二分类线性可分问题，期望找到一个分类超平面将正负类分开，SVM就是一个用来寻找这样的分类超平面的算法。定义正负类的标签分别为1、-1，分类超平面的表达式为$f(x)=w^Tx+b$，其中x为样本向量，w、b分别为超平面的权重以及偏置项。可以由$f(x)$的阅读全文

posted @ 2021-01-08 23:59 1033020837 阅读(518) 评论(0) 推荐(0) 编辑

最大熵

摘要：最大熵原理最大熵原理是概率模型学习的一个准则，其认为学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，然后在集合中选择熵最大的模型。直观地，最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的阅读全文

posted @ 2021-01-08 23:41 1033020837 阅读(521) 评论(0) 推荐(0) 编辑

逻辑回归

摘要：什么是逻辑回归？逻辑回归一般指二项逻辑回归，是一种用于二分类的判别式模型。设输入样本为$x\in\mathbb^n$，样本标签$y\in{0,1}$逻辑回归的参数为：$w\in\mathbb{R}^n, b\in\mathbb{R}$，逻辑回归按照下式得到样本属于标签1的概率： \[ p=\ 阅读全文

posted @ 2021-01-08 23:39 1033020837 阅读(385) 评论(0) 推荐(0) 编辑

决策树

摘要：什么是决策树决策树表示基于特征对实例进行分类的树形结构，从给定的训练数据集中，递归选择最优划分特征，依据此特征对训练数据集进行划分，直到结点符合停止条件。决策树可以看作是一系列 if-then 规则的集合。停止条件当前结点所有样本属于同一类别。当前结点属性集为空，或者是所有样本在所有属性阅读全文

posted @ 2021-01-08 23:24 1033020837 阅读(529) 评论(0) 推荐(0) 编辑

朴素贝叶斯

摘要：什么是朴素贝叶斯朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。给定训练集$T={(x_1,y_1),(x_2,y_2),..,(x_N,y_N)}$，设类别可选数目为K，即$c_1,c_2,...,c_K$，特征维度为m，即$x_i=(x_i1,x_i2,...x_im)$，第j维的特阅读全文

posted @ 2021-01-08 23:22 1033020837 阅读(593) 评论(0) 推荐(0) 编辑

感知机

摘要：什么是感知机感知机是一个二分类线性判别模型，假设输入$x\in \mathbb^n$，输出$y\in{-1,+1}$，感知机为如下函数： \[ f(x)=sign(w^Tx+b), \\sign(z)=\left\{\begin{aligned} 1 \qquad \quad x\ge0\\ -1 阅读全文

posted @ 2021-01-08 23:21 1033020837 阅读(901) 评论(0) 推荐(0) 编辑

KNN

摘要：什么是KNN KNN(K近邻)算法：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最近邻的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。 KNN使用的模型实际上对应于特征空间的划分，没有显式的训练过程。 KNN三要素距离度量特征空间中两个实例点的距离是两个实例点阅读全文

posted @ 2021-01-08 23:16 1033020837 阅读(427) 评论(0) 推荐(0) 编辑

01 2021 档案

公告