摘要:
1、背景 搜索系统是一个复杂的系统,当用户在输入框中输入想要的问题,或者输入想要的商品后,点击"确定"按钮,搜索系统会经历一系列的操作,query理解和分析,召回结果,相关性打分,排序等,所有的这些操作都在毫秒级别内完成。 而本文所讲述的query扩展是在query理解和分析阶段的操作。query扩 阅读全文
摘要:
1、transformer transformer就是大名鼎鼎的论文《Attention Is All You Need》[1],其在一些翻译任务上获得了SOTA的效果。其模型整体结构如下图所示 encoder和decoder 其整体结构由encoder和decoder组成,其中encoder由6个 阅读全文
摘要:
1、隐马尔可夫模型简介 隐马尔可夫模型是一种生成模型,其广泛的应用于自然语言处理,语音识别,生物信息领域。 其模型可以描述为由状态集合,观测集合,初始集合生成相应的状态序列和观测序列的任务。定义如下 设Q表示状态集合,V表示观测集合。状态集合的个数为N,观测集合的个数为M, \[ Q = {q_{1 阅读全文
摘要:
1、EM算法 EM算法是针对含有隐变量的一种优化算法,如果不含有隐变量,我们可以直接利用极大似然估计方法,对需要优化的变量求导,用梯度下降的方法进行参数的更新。而当变量中含有隐变量时,就无法用极大似然估计方法,就需要用到EM算法进行迭代的求解,EM算法分为两步,第一步是E步,即得到隐变量的期望,第二 阅读全文
摘要:
支持向量机是一个比较经典分类算法,这几天死磕了一下支持向量机,手推了一下相应的算法,特此做一个笔记。 1、线性可分SVM 线性可分的支持向量机就是给定相应的数据集,这个数据集可以用一个超平面,将正例和负例进行分类。且这个超平面尽可能远的分割正例和负例,如下图所示。 如果我们能找到一个超平面,假定是$ 阅读全文
摘要:
1、最大熵模型 最大熵模型描述的是这么一种情况,即在有约束条件的情况下,如何得到最好的模型。我们先来考虑如果没有约束的条件下,如何获得最好的模型,举个栗子,比如一个骰子,有6个面,转一次,求每个面的概率,根据经验,每个面的概率是1/6,这其实就是我们让整个系统熵最大。 那么什么是在有约束条件下概率最 阅读全文
摘要:
[TOC] 1、HAN HAN(Hierarchical Attention Networks)是由Zichao Yang[1]等人提出的一种算法,其主要思想是利用attention机制,将单词进行编码,得到句子的向量s,接着用同样的方式对句子进行编码,最终得到文章的向量V,最终,可以在V上加入so 阅读全文
摘要:
[TOC] 1、逻辑回归模型 关于逻辑回归,可以看做是感知机的加强版本,感知机是线性的分类器,逻辑回归在感知机的基础上加上了一个sigmoid函数,将其变成了一个非线性的分类器,其效果要优于感知机。逻辑回归公式如下 $$ f(x) = \frac {1} {1 + \exp (wx+b)} \tag 阅读全文
摘要:
1、分类决策树模型 决策树模型是一种基于规则的算法,其是一个二叉树结构,其中叶子节点为分类的类别,中间的节点为对不同的特征的选择。其既可以做分类,也可以做回归,决策树学习算法包括特征选择,决策树的构建,剪枝。 1.1、特征选择 特征选择在进行决策树分裂的过程中进行的算法,其主要思想是希望在选择某个特 阅读全文
摘要:
[TOC] 1、贝叶斯公式 贝叶斯的公式如下 $$ P(B_{i}| A) = \frac {P(B_{i} | P(A)) P(B_{i})} { \sum\nolimits_{j=1}^{N} P(B_{j}) P(A|P(B_{j}))} $$ 2、分类中的朴素贝叶斯 上述公式中我们可以将A当 阅读全文