摘要: 1. Dropout简介 1.1 Dropout出现的原因 在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题,过拟合具体表现在:模型在训练数据上损失函数较小,预测准确率较高;但是在测试数据上损失函数比较大,预测 阅读全文
posted @ 2021-02-05 18:42 早起的小虫子 阅读(498) 评论(0) 推荐(0) 编辑
摘要: BERT 模型是 Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的一项技术。在 11 个 NLP 领域的任务上都刷新了以往的记录,例如GLUE,SquAD1.1,MultiNLI 等。 1. 前言 Google 在论文《BERT: Pre-traini 阅读全文
posted @ 2021-02-02 17:00 早起的小虫子 阅读(946) 评论(0) 推荐(0) 编辑
摘要: 交叉熵 熵/信息熵 假设一个发送者想传输一个随机变量的值给接收者。这个过程中,他们传输的平均信息量为: 叫随机变量的熵,其中 把熵扩展到连续变量的概率分布,则熵变为 被称为微分熵。 在离散分布下,最大熵对应于变量的所有可能状态的均匀分布。 最大化微分熵的分布是高斯分布 相对熵/KL散度 考虑某个未知 阅读全文
posted @ 2021-02-01 09:38 早起的小虫子 阅读(749) 评论(0) 推荐(0) 编辑
摘要: 让我们试着去理解最广泛使用的损失函数-交叉熵。 交叉熵(也称为对数损失)是分类问题中最常用的损失函数之一。但是,由于当今庞大的库和框架的存在以及它们的易用性,我们中的大多数人常常在不了解熵的核心概念的情况下着手解决问题。所以,在这篇文章中,让我们看看熵背后的基本概念,把它与交叉熵和KL散度联系起来。 阅读全文
posted @ 2021-01-31 23:05 早起的小虫子 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量 阅读全文
posted @ 2021-01-31 22:02 早起的小虫子 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 在机器学习中建模的时候,往往面临两个困难,一是选择哪个模型,二是怎样处理数据。处于数据包括数据获取、数据清洗和数据分析。其实对于不同的场景和不同的数据,选择的模型也是不一样的,本文简单聊一聊在数据缺失的时候该怎样选择合适的模型。 一、缺失数据处理及建模方法 数据缺失时,处理数据的方式有如下三种: ( 阅读全文
posted @ 2021-01-31 10:02 早起的小虫子 阅读(1733) 评论(0) 推荐(0) 编辑
摘要: 1. 样本量极少可以训练机器学习模型吗? 在训练样本极少的情况下(几百个、几十个甚至几个样本),现有的机器学习和深度学习模型普遍无法取得良好的样本外表现,用小样本训练的模型很容易陷入对小样本的过拟合以及对目标任务的欠拟合。但基于小样本的模型训练又在工业界有着广泛的需求(单用户人脸和声纹识别、药物研发 阅读全文
posted @ 2021-01-30 22:47 早起的小虫子 阅读(4459) 评论(0) 推荐(0) 编辑
摘要: 0 引言 在自然语言处理任务中,我们经常需要判断两篇文档是否相似、计算两篇文档的相似程度。比如,基于聚类算法发现微博热点话题时,我们需要度量各篇文本的内容相似度,然后让内容足够相似的微博聚成一个簇;在问答系统中,我们会准备一些经典问题和对应的答案,当用户的问题和经典问题很相似时,系统直接返回准备好的 阅读全文
posted @ 2021-01-29 18:09 早起的小虫子 阅读(2777) 评论(0) 推荐(0) 编辑
摘要: “团结就是力量”这句老话很好地表达了机器学习领域中强大「集成方法」的基本思想。总的来说,许多机器学习竞赛(包括 Kaggle)中最优秀的解决方案所采用的集成方法都建立在一个这样的假设上:将多个模型组合在一起通常可以产生更强大的模型。 一、集成方法 集成(Ensemble)方法就是针对同一任务,将多个 阅读全文
posted @ 2021-01-25 23:28 早起的小虫子 阅读(562) 评论(0) 推荐(0) 编辑
摘要: HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种生成模型,定义了联合概率分布,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布,生成模型需要枚举出所有可能的观察序列,这在实际运算过程中很困难,因 阅读全文
posted @ 2021-01-22 17:41 早起的小虫子 阅读(1410) 评论(0) 推荐(0) 编辑