随笔- 59
文章- 0
评论- 17
阅读-
18万
随笔分类 - nlp
ChatGPT 也许是下一世代革命的原始星火
摘要: ## 0 火出圈的ChatGPT 2022年12月,OpenAI发布其最新研究成果: ChaGPT,一个对话机器
阅读全文
自然语言处理(八) 条件随机场(仅基础)
摘要:条件随机场 条件随机场 (conditional random field, CRF) 是给定一组随机变量构成马尔可夫随机场(稍后介绍)。一般在NLP中,特
阅读全文
自然语言处理(二) 新词发现或非监督词典构建
摘要:新词发现,未登录词识别,无监督词典构建 对自然语言进行处理时,经常需要维持一个词典,词典一般不会从头构建,网上有很多词典可供使用。然而有时,特别在特定领域词典就不易获得了。需要人为构建,人工成本太大,如何自动构建呢? 还有就是网上经常会出现很多新词,领域内也会因为如新产品、新技术、新应用的出现而出现
阅读全文
噪声对比估计 Noise-contrastive estimation
摘要:Noise-contrastive estimation 噪声对比估计 目录 Noise-contrastive estimation 噪声对比估计 这份简短的NCE博文是对自然语言处(四) 词向量编码 word2vec 的一个小补充或额外资料吧. 在统计中, 估计非标准化的模型参数是非常困难的,或
阅读全文
自然语言处理(三) 预训练模型:XLNet 和他的先辈们
摘要:预训练模型 在CV中,预训练模型如ImagNet取得很大的成功,而在NLP中之前一直没有一个可以承担此角色的模型,目前,预训练模型如雨后春笋,是当今NLP领域最热的研究领域之一。 预训练模型属于迁移学习,即在某一任务上训练的模型,经过微调(finetune)可以应用到其它任务上。 在NLP领域,最早
阅读全文
机器学习九 机器学习中常用的采样方法
摘要:采样方法 [TOC] 实际应用中,经常需要获得服从某一分布的样本集。不过,手动生成一般来说不太现实,需要求助于计算机,而计算机则只能实现对均匀分布进行抽样。其他的分布,甚至如高斯分布都是无法实现的。不过,通过均匀分布,可间接地生成服从其他分布的样本。这点很重要,下面会看到,所有的随机模拟都从均匀分布
阅读全文
自然语言处理(一) 关系抽取
摘要:Relation Extraction 信息抽取在自然语言处理中是一个很重要的工作,特别在当今信息爆炸的背景下,显得格外的生重要。从海量的非结构外的文本中抽取出有用的信息,并结构化成下游工作可用的格式,这是信息抽取的存在意义。信息抽取又可分为实体抽取或称命名实体识别,关系抽取以及事件抽取等。命名实体
阅读全文
论文选读二:Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification
摘要:论文选读二:Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification 目前,阅读理解通常会给出一段背景资料,据此提出问题,而问题的答案也往往在背景资料里。不过背景资料一般是一篇文章,或者是文章的
阅读全文
自然语言处理(五)时下流行的生成模型
摘要:近期流行的生成模型 本次介绍近期大火的三大类生成模型,这三大类模型从三个不同角度切入,居然都能有惊人的效果。而且深入挖掘发现它们有很多相似的地方。 1. Generative Adversarial Nets 生成对抗网络(GANs)是当今最火的生成模型,从2014年 Goodfellow 论文发表
阅读全文
论文选读三 QANet
摘要:Reading Comprehension(RC) 阅读理解对于机器来说, 是一项非常艰巨的任务。google提出QANet, 目前(2018 0505)一直是SQuAD的No. 1. 今天简单地与大家分享一下。 SQuAD Stanford Question Answering Dataset (
阅读全文
自然语言处(四) 词向量编码 word2vec
摘要:word2vec word2vec 是Mikolov 在Bengio Neural Network Language Model(NNLM)的基础上构建的一种高效的词向量训练方法。 词向量 词向量(word embedding ) 是词的一种表示,是为了让计算机能够处理的一种表示。 因为目前的计算机
阅读全文
自然语言处理(七): 高冷贵族: 隐马尔可夫模型
摘要:高冷贵族: 隐马尔可夫模型 引言 大家都用过Siri,Cortana之类的语音助手吧? 当你对着手机说出'我的女朋友温柔吗?',Siri 或Cortana就会根据你说的这句话翻译成一段文字,然后再作应答. 先不管应答部分, 你可曾想过: Siri是如何将你说的话翻译成一段文字的?嗯,猜对了, 这里就
阅读全文
自然语言处理(六): 炙手可热的RNN: LSTM
摘要:炙手可热的LSTM 引言 上一讲说到RNN. RNN可说是目前处理时间序列的大杀器,相比于传统的时间序列算法,使用起来更方便,不需要太多的前提假设,也不需太多的参数调节,更重要的是有学习能力,因此是一种'智能'算法.前面也说到, 不只时间序列,在很多领域,特别是涉及序列数据的,RNN的表现总是那么的
阅读全文