随笔分类 - 深度学习与自然语言处理
摘要:1.Dropout m(k)是dropout的过程。 2.attention机制 (1)seq2seq Seq2Seq 是一个 Encoder-Decoder 结构的神经网络,它的输入是一个序列(Sequence),输出也是一个序列(Sequence),因此而得名 “Seq2Seq”。在 Encod
阅读全文
摘要:1.词向量 (1)one-hot形式的文本表示回顾 one-hot形式的表达方式的缺点:<1>向量很稀疏 <2>无法计算单词的相似度 <3>表达能力 (2)词向量 (3)skip-gram model 2.神经网络 (1)神经网络结构
阅读全文
摘要:1.句法分析 (1)入门小案例 2.时序模型 (1)时序数据和非时序数据 时序数据:股票价格、语音、文本、温度 非时序数据:图片、一个人的特征 3.隐马尔科夫模型(Hidden Markov Model) latent variable 隐式变量 observed 观测值 4.有向图 (1)有向图和
阅读全文
摘要:1.信息抽取介绍 从非结构化数据中,抽取数据。 非结构化数据包括图片、文本、视频、音频等内容,提取特征输入到model中,而结构化数据类似于数据库中的一个个字段。 信息抽取主要包括两个部分:一个是抽取实体,另一个是抽取关系。 信息抽取的典型应用: 2.命名实体识别 (1)简介 小案例: (2)开源工
阅读全文
摘要:1.max-margin(很经典) SVM的目的就是使得margin值最大。 由上图可以得到margin=2/||w|| 2.SVM的目标函数 (1)Hard Constraint(强限制条件) (2)Soft Constraint(弱限制条件) Hinge loss(Linear SVM): 利用
阅读全文
摘要:1.Pandas介绍 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效
阅读全文
摘要:1.学习的两种主流方式 专家系统与基于概率的系统最根本的区别就是:数据量的不同 数据量大则优先使用基于概率的系统;若数据量小或没有数据,则推荐使用专家系统。 2.专家系统介绍 专家系统的特点:能够处理不确定性、知识的表示、可解释性、可以做知识推理 3.机器学习入门介绍 (1)定义 (2)机器学习的分
阅读全文
摘要:1.Noise channel model 上图公式,可以利用贝叶斯公式进行推导。 2.数学基础 (1)Chain rule(非常经典) 示例: 上图,说明chain rule所得的条件概率项是通过统计所给文档中出现今天、是、春节、我们、都的次数(图中出现2次)和出现今天、是、春节、我们、都之后再出
阅读全文
摘要:1.One-hot表示方法的缺点 向量的大小与词典的长度相等 主要缺点:<1>不能表示语义相似度 <2>向量很稀疏 2.分布式表示(Distributed Representation) 词向量 输入足够多的数据(10^10的单词) 词向量代表单词的意思。word2vec,某种意义上可以理解成词的意
阅读全文
摘要:1.文本处理的一般流程 上图中: 清洗包括无用的标签(例如从网上爬取的文本中可能包含html标签)、特殊的符号(!感叹号、省略号等)、停用词、大写转小写 标准化包括stemming、lemmazatic(就是对英文词汇中的名词、动词转换化标准形态) 本篇博客主要包括:分词(word segmenta
阅读全文
摘要:1.算法复杂度 时间复杂度和空间复杂度,这是任何AI工程师必须要深入理解的概念。对于每一个设计出来的算法都需要从这两个方面来分析。 int a = 0, b = 0; for (i = 0; i < N; i++) { # O(N)+O(N)=2*O(N)=O(N) a = a + rand();#
阅读全文
摘要:1.什么是NLP 2.NLP领域的挑战 (1)同一个意思有多种表达方式 (2)一词多义(Ambiguity) 解决一词多义的问题方法:从数据中学习(结合上下文Context) 3.机器翻译系统的案例 上图的意思:根据表中的12对翻译结果,翻译所给出的一句话。 做法:给定语料库,在语料库中做统计,进行
阅读全文
摘要:1.NLP训练营概况(2019-01-22) 2.入学要求 3.课程要求 4.课程将有收获 5.AI工程师必备的核心技能
阅读全文
摘要:1.主要应用 2.各种应用 (1)卷积神经网络CNN,主要应用于图像方面 典型案例:
阅读全文
摘要:1.强化学习在游戏领域的应用 2.强化学习的要点 3.强化学习案例 马尔科夫的无后效性:系统在t>t0时刻所处的状态与系统在t0时刻以前的状态无关,这就是马尔科夫性或者无后效性。 马尔科夫模型具体公式描述如下 有随机过程{Xn,n为整数},对于任意n和I0,I1,In,满足条件概率:
阅读全文
摘要:1.RNN的简单回顾 RNN的典型应用: 2.LSTM的简单回顾 3.attention模型(注意力模型) 输入一张图片,经过CNN卷积层,得到输出的特征集L*D(196*512),D表示有多少个神经元,L是CNN的滑动窗口输出的14*14的值 下图中右边一侧是一个RNN,输出a2是一个权重向量14
阅读全文
摘要:1.RNN的典型应用 (1)机器翻译,序列到序列(自然语言处理,NLP) (2)看图说话,就是描述图片的内容。 2.RNN的应用背景 RNN与CNN最大的不同就是引入了记忆的概念,就是输出依赖输入和记忆。 3.RNN的结构 注意:St公式中的U和W表示权重矩阵,Ot公式中的V也是权重矩阵。 RNN结
阅读全文
摘要:分析步骤: 第一步:将one-hot形式分词结果作为输入([0,1,0....,0]的列向量的V*1维词向量),与投影矩阵C(D*V维度)相乘,得到D*1维的向量 第2步:将第一步的输出结果做拼接,作为隐藏层的输入。 第3步:经过一个全连接的神经网络,经过激励层,再softmax,得到该词出现的概率
阅读全文
摘要:1.自然语言处理(NLP) 以上任务的处理方法: 其中,P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1),这是条件概率公式的推广。 新的概念:用一个词的附近的其他词来表示该词。 上图中,I附近有like出现的语料次数为2次。 奇
阅读全文
摘要:正向传播可以理解为高考做练习题,知道自己和标准答案之间的差距,反向传播回传误差,可以知道自己那块知识点不好,也就是修改神经元的权重W。 SGD 随机梯度下降--mini-batch 反向传播--利用链式求导法则。 更新w5的值。
阅读全文