斯坦福CS224n深度学习与NLP课程

　　　　斯坦福大学CS224n（全称：深度学习与自然语言处理）是自然语言处理领域很受欢迎的课程，由 Chris Manning 和 Richard Socher 主讲

　　　　自然语言处理是理解复杂人类语言交际的关键人工智能技术。本系列讲座全面介绍了应用于NLP的前沿研究，这种方法最近在许多不同的NLP任务中获得了很高的性能，包括问答和机器翻译。

　　　　官网课件：http://web.stanford.edu/class/cs224n/syllabus.html

　　　　B站视频：https://space.bilibili.com/23852932/#!/channel/detail?cid=11177

　　　YouTube视频：https://www.youtube.com/playlist?list=PL3FW7Lu3i5Jsnh1rnUwq_TcylNr7EkRe6

　　　　学习笔记：http://www.hankcs.com/nlp/cs224n-introduction-to-nlp-and-deep-learning.html

　　　　官方笔记：https://github.com/stanfordnlp/cs224n-winter17-notes

▍课程表

简介

Word2Vec词向量表示

GloVe词向量表示

词窗分类与神经网络

反向传播

依存解析

TensorFlow入门

RNN与语言模型

机器翻译 Advanced Recurrent LSTMs & GRUs

期中回顾

神经机器翻译与注意模型

GRU & NMT进阶

端到端语音处理模型

卷积神经网络及其变种

树递归神经网络和句法分析

共指消解

动态神经网络自动问答

NLP的问题及可能的解决框架

聚焦深度学习NLP局限性

内容简介

第1讲：自然语言处理与深度学习

第1讲介绍了自然语言处理（NLP）的概念和当前的NLP研究面临的问题，然后介绍将词表示为数字向量的概念，以及设计词向量的流行方法。

关键词：自然语言处理、词向量、奇异值分解、skip-gram模型、连续词袋模型（Continuous Bag-Of-Words，CBOW）、负采样、 Hierarchical Softmax、Word2Vec

第2讲：词向量表示：word2vec

第2讲继续讨论词向量的概念，以及流行的设计词向量的方法。

第3讲 | GloVe：用于词汇表示的全局向量

第3讲介绍了用于训练词向量的 GloVe 模型。本讲接着通过观察如何评估词向量（又称词嵌入）来拓展对它的理解。作为评估技术的一种，接着我们讨论了词的类比问题（word analogies），以及如何利用类比来调整词嵌入。然后我们讨论了训练模型的权重/参数，以及外部任务的词向量。最后，我们鼓励用人工神经网络作为自然语言处理任务的一类模型。

关键词：GloVe、内部和外部评估、超参数对类比评估任务的影响、人类判断与词向量距离的相关性、使用上下文处理歧义、窗口分类

第4讲：词窗口分类和神经网络

第4讲介绍了单层和多层神经网络，以及如何它们进行分类任务。

关键词：神经网络、前向计算、反向传播、神经元单元、最大边界损失、梯度检查、Xavier参数初始化、学习率、Adagrad

第5讲：反向传播与项目建议

第5讲讨论了如何使用反向传播这一分布式梯度下降技术来训练神经网络。

第6讲：依存分析

第6讲讨论依存分析，这是给定一个输入句子S，分析其句法依存结构的任务。依存分析器的输出是一个依存关系树，其中输入句子的词汇与依存关系类型相关联。

关键词：依存分析

第7讲：TensorFlow简介

第7讲介绍了TensorFlow。TensorFlow是一个开源软件库，用于使用数据流图（data flow graphs）进行数值计算。它最初由谷歌大脑团队开发，用于进行机器学习和深度神经网络研究。

关键词：TensorFlow

第8讲：循环神经网络和语言模型

第8讲介绍传统语言模型、RNN，以及RNN语言模型。本讲还回顾了一些重要的训练问题和技巧，用于其他序列任务的RNN，以及双向RNN（bidirectional RNNs）和deep RNNs。

第9讲：机器翻译、LSTM和GRU

第9讲回顾了前部分课程的重要概念，机器翻译的概念，以及用RNN模型处理机器翻译。

关键词：语言模型、RNN、双向RNN、deep RNN、GRU、LSTM

第10讲：神经机器翻译和注意力模型

第10讲介绍了翻译、机器翻译和神经机器翻译，重点介绍谷歌的新 NMT模型，以及基于注意力的序列模型和序列模型解码器。

第11讲：门控循环单元和NMT

第11讲介绍了GRAT / LSTM之类的门控循环单元，然后介绍机器翻译的评估，处理大量词汇输出，以及 sub-word 模型和 character-based 模型。

关键词：Seq2Seq、注意力机制、神经机器翻译，语音处理

第12讲：语音处理的端到端模型

第12讲介绍传统语音识别系统和端到端模型，包括CTC模型（ Connectionist Temporal Classification）和LAS（Listen Attend and Spell），这是一种用于语音识别的序列到序列模型。

第13讲：卷积神经网络

第13讲提供了Azure和GPU的一个小教程，然后介绍“Character-Aware Neural Language Models”。本讲还提到CNN的一些变体，以及比较了 BoV、RNN、CNN这些句子模型。

第14讲：树递归神经网络和parsing分析

第14讲介绍了语义合成性（compositionality）和结构预测，利用一个简单的树RNN：parsing。重点介绍“对话生成的深度强化学习”。

关键词：RNN、递归神经网络、MV-RNN、RNTN

第15讲：指代消解（Coreference Resolution）

第15讲通过一个实例来介绍什么是指代（coreference），涉及的研究是“Summarizing Source Code”，这一研究介绍了指代消解和神经网络指代消解。

第16讲：用于问题回答的动态神经网络

第16讲介绍了“是否所有NLP任务都可以被视为问答问题”这一问题。

关键词：指代消解、动态神经网络

第17讲：NLP中的重要问题和NLP的架构

第17讲介绍了高效树递归模型SPINN和SNLI，重点介绍“Learning to compose neural networks for QA”这一研究。

第18讲：NLP中深度学习的局限性

第18讲讨论了NLP中深度学习的局限，提供了一些presentations。

posted on 2017-10-18 22:51 koocn 阅读(576) 评论(0) 收藏举报

刷新页面返回顶部

koocn

导航

公告

斯坦福CS224n深度学习与NLP课程