随笔分类 - NLP
摘要:一、任务描述 任务提出是NLPCC2017提出,题目为: Chinese Word Semantic Relation Classification : http://tcci.ccf.org.cn/conference/2017/dldoc/taskgline01.pdf 项目测试数据集: htt
阅读全文
摘要:之前对bert轻量化,显存占用减少一半。但是推理速度仍然没多大变化。因此 计划通过tensorRT完成模型的推理加速。 轻量化之前链接: https://www.cnblogs.com/dhName/p/12628828.html 1. 首先,了解一下tensorTR是干什么的,这篇文章写得很好。
阅读全文
摘要:1. 首先,HMM是一种生成式模式,它通过对p(x,y)进行联合建模的过程。 他有两个假设,齐次一阶的markov;观测独立假设。 但是: 所以说,MEMM打破了观测独立性假设,通过引入了P(x|y)进行建模的判别式模型。 但是MEMM又有一个非常严重的问题,就是标注偏置问题。总的一句话就是:熵越低
阅读全文
摘要:支持向量机(SVM)必备知识(KKT、slater、对偶) https://blog.csdn.net/feilong_csdn/article/details/62427148
阅读全文
摘要:BERT 官方代码中的分类模型的损失函数叫做负对数似然函数(且是最小化,等价于最大化对数似然函数),数学表达式是: 至于为何要定义这样的损失函数,则是因为在实际使用中,常用逻辑回归模型去解决分类问题,当逻辑回归撞上平方损失,损失函数关于参数 非凸。所以,不是分类问题中不使用平方损失,而是逻辑回归不使
阅读全文
摘要:首先,xgboost与gbdt的区别 : GBDT是机器学习算法,XGBoost是该算法的工程实现。 在使用CART作为基分类器时,XGBoost显式地加入了正则项来控制模 型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。 GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代
阅读全文
摘要:Batch Normalization是深度学习发展以来提出的最重要的成果之一了,目前已经被广泛的应用到了各大网络中,具有加速网络收敛速度,提升训练稳定性的效果,Batch Normalization本质上是解决反向传播过程中的梯度问题。Batch Normalization,简称BN,即批规范化,
阅读全文
摘要:梯度消失的原因: 在多层网络中,影响梯度大小的因素主要有两个:权重和激活函数的偏导。深层的梯度是多个激活函数偏导乘积的形式来计算,如果这些激活函数的偏导比较小(小于1)或者为0,那么梯度随时间很容易vanishing;相反,如果这些激活函数的偏导比较大(大于1),那么梯度很有可能就会explodin
阅读全文
摘要:
阅读全文
摘要:在优秀的词嵌入方法出现之前,潜在语义分析模型(LSA)和文档主题生成模型(LDA)都是解决自然语言问题的好方法。LSA模型和LDA模型有相同矩阵形式的词袋表示输入。不过,LSA模型专注于降维,而LDA模型专注于解决主题建模问题。 在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句
阅读全文
摘要:环境: windows 10 python 3.5 GTX 1660Ti tensorflow-gpu 1.13.1 numpy 1.18.1 1. 首先下载google开源的预训练好的model。我本次用的是 BERT-Base, Uncased(第一个) BERT-Base, Uncased:
阅读全文
摘要:二、语言模型 之前讲过一次的语言模型,直接贴上链接便于复习。 https://www.cnblogs.com/dhName/p/11357774.html 三、CNN+RNN 这两个网络已经滚瓜烂熟了。 CNN通过距离为W的窗口不断进行卷积,之后再进行池化,最终对sentence进行语义表示。 RN
阅读全文
摘要:开篇: 从事NLP方向的工作也有一年了,前前后后也学到了很多东西,但是就是没有整理过,现在从原理和应用的方面将所有知识总结方便复习管理。 一、word2vec word2vec可以说得上是NLP的一个里程碑。将每个单词离散表示,既解决了one-hot的巨大维度,也解决了one-hot的部分语义问题。
阅读全文
摘要:1.准备语料 准备好自己的语料,保存为txt,每行一个句子或一段话,注意要分好词。将分好词的语料保存为×××.txt 2.准备源码 下载地址:https://github.com/stanfordnlp/GloVe,解压后将语料×××.txt添加到GloVe-master文件夹下 3.修改训练语料地
阅读全文
摘要:人工智能旨在了解人类智能的本质,并创造出能模仿人类智能做出反应的智能机器,目前在一些领域已经取得显著的成功,如AI玩游戏、问答系统、自动驾驶、无人机、机器人、翻译、人脸识别、语音识别等领域。深度学习的突破性进展是人们对人工智能产生巨大兴趣的主要原因之一,它包含几个关键的技术:卷积神经网络、循环神经网
阅读全文
摘要:在大数据的今天,世界上任何一台单机都无法处理大数据,无论cpu的计算能力或者内存的容量。必须采用分布式来实现多台单机的资源整合,来进行任务的处理,包括离线的批处理和在线的实时处理。 鉴于上次开会讲了语言模型的发展,从规则到后来的NNLM。本章的目的就是锻炼动手能力,在知道原理的基础上,通过采用MR范
阅读全文
摘要:本人在某次会上的语言模型的ppt.
阅读全文
摘要:目录写在前面1. Transformer1.1 从哪里来?1.2 有什么不同?1.2.1 Scaled Dot-Product Attention1.2.2 Multi-Head Attention1.2.3 Masked Multi-Head Attention2. Transformer-XL2
阅读全文
摘要:感谢: https://blog.csdn.net/longxinchen_ml/article/details/86533005(此篇解释的更详细,本篇自愧不如) https://www.jianshu.com/p/04b6dd396d62 Transformer模型由《Attention is
阅读全文