摘要: 目的:把文本用数据的形式表达出来 方法:传统基于规则,现代基于统计 一、词编码方式1——离散表示 1、One hot编码 和句子中顺序无关,耗空间耗时 2、词袋模型 每个数表示该词出现的次数(One hot的加和) 3、TF_IDF 每个数代表该词在整个文档中的占比 4、N gram 相邻N个词作为 阅读全文
posted @ 2017-07-26 22:30 谦芊珺 阅读(1649) 评论(0) 推荐(0) 编辑
摘要: 1、tips 1、行业基准:用词袋模型表示句子,用SVM或LR做回归,用自己的模型和它做对比 2、分词:启发式或机器学习(HMM,CRF) 3、深度学习是端到端的 2、Auto Encoder 可将语料编码化,降维降噪 3、CNN 机器自动学习卷积滤镜 用word2vec将一句话处理成一个矩阵,用C 阅读全文
posted @ 2017-07-26 22:29 谦芊珺 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 为了解决“一词多义”和“多词一意”的问题,引入“主题” LDA本质是一个三层贝叶斯网络 1、共轭分布 1、Beta分布是二项分布的共轭先验分布 2、Dirichlet分布是多项分布的共轭先验分布 Dirichlet分布的参数$[\alpha_{1},\alpha_{2},....,\alpha_{n 阅读全文
posted @ 2017-07-26 22:28 谦芊珺 阅读(745) 评论(0) 推荐(0) 编辑
摘要: 1、统计机器翻译三要素 1、翻译模型 2、语言模型 3、排序模型 2、翻译流程 1、双语数据预处理 2、词对齐 3、构造短语翻译表 4、对短语翻译表进行概率估计 5、解码,beam search 6、评估 阅读全文
posted @ 2017-07-26 22:28 谦芊珺 阅读(758) 评论(0) 推荐(0) 编辑
摘要: 1、词袋模型 认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。 2、N gram模型 引入了词与词之间的顺序。 这个N是一个超参数。 1、一般能用2 gram尽量用2 gram。 2、平时3 gram用的多。 3、n =4的情况很少,在有特别多语料时可以尝试到5 gram 阅读全文
posted @ 2017-07-26 22:27 谦芊珺 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 1、字符串常用命令 2、正则表达式 3、Python的re模块 4、jieba分词工具 阅读全文
posted @ 2017-07-26 22:26 谦芊珺 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 1、隐马尔可夫HMM模型 一个隐马尔可夫模型可以表示为$$\lambda=\{A,B,\pi\}$$具体就不说了,比较基本。 2、HMM模型的三个基本问题 1、概率计算问题:给定$\lambda$和观测序列$\{x_{i}\}$,求$P(x_{i}| \lambda)$。主要方法是前向计算法或后向计 阅读全文
posted @ 2017-07-26 22:25 谦芊珺 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 一、贝叶斯网络 本文介绍贝叶斯网络。贝叶斯网络与前面的大多数算法有一些区别,它归属与贝叶斯学派,属于判别式模型。前面介绍大多数算法归属于频率学派,属于生成式模型。 贝叶斯网络可以看成是一个DAG(有向无环图)模型 贝叶斯网络的三个知识点 1、网络如图所示:$$A\leftarrow C\righta 阅读全文
posted @ 2017-07-26 22:24 谦芊珺 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 本文主要简述聚类算法族。聚类算法与前面文章的算法不同,它们属于非监督学习。 1、K means聚类 记k个簇中心,为$\mu_{1}$,$\mu_{2}$,...,$\mu_{k}$,每个簇的样本数为$N_{i}$ 假设每个簇中的数据都满足分布$N(\mu_{i},\sigma)$,即方差相同,均值 阅读全文
posted @ 2017-07-26 22:23 谦芊珺 阅读(1437) 评论(0) 推荐(0) 编辑
摘要: 一、GMM算法 EM算法实在是难以介绍清楚,因此我们用EM算法的一个特例GMM算法作为引入。 1、GMM算法问题描述 GMM模型称为混合高斯分布,顾名思义,它是由几组分别符合不同参数的高斯分布的数据混合而成的。 假设有n个样本点$x_{1},x_{2},...,x_{n}$,它们来自K个不同的高斯分 阅读全文
posted @ 2017-07-26 22:23 谦芊珺 阅读(790) 评论(0) 推荐(0) 编辑
摘要: 1、集成 集成指用多个基学习器共同构成一个更加强大的学习器。 集成包含三种方法:Boosting,Bagging,Stacking 1、Boosting:包括GBDT和Adaboost,各学习器间存在强依赖关系,只能串行实现 2、Bagging的代表算法是随机森林,各学习器间不存在强依赖关系,可以并 阅读全文
posted @ 2017-07-26 22:22 谦芊珺 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 一、信息熵 首先给出信息熵的定义如下$$H\left( x\right) = \sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) $$ 1、无约束条件时,均匀分布熵最大 2、若给定分布的期望和方差,则正态分布的熵最大 二、决策树是什么 决策 阅读全文
posted @ 2017-07-26 22:20 谦芊珺 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 1、问题介绍 本文只涉及二分类支持向量机。 支持向量机问题可以分为三种情况来讨论: 1、硬间隔支持向量机:用于可以被一个超平面严格分开的问题中,又称为线性可分支持向量机 2、软间隔支持向量机:用于可以被一个超平面非严格分开的问题中,又称线性支持向量机 3、核支持向量机:用于可以被一个超曲面分开的问题 阅读全文
posted @ 2017-07-26 22:18 谦芊珺 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 上文中说过,逻辑斯蒂回归虽然称为回归,但它实际上是一种分类算法。认识逻辑斯蒂回归,首先需要知道sigmoid函数。下面公式1即为sigmoid函数$$g\left( x\right) =\dfrac {1}{1+e^{ x}}$$它的函数图像如图所示。 1、算法介绍 和上文中的回归算法一样,我们有m 阅读全文
posted @ 2017-07-26 22:17 谦芊珺 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 机器学习算法(一)线性回归 本文主要梳理一下线性回归和逻辑斯蒂回归这两大算法。这两个算法的关系是什么呢?答案是并没有什么关系。 这样说其实也不对,逻辑斯蒂回归里有线性回归的重要组成部分。但是二者又一个本质区别,就是线性回归是一个“回归”算法,而逻辑斯蒂回归是一个“分类”算法。这就导致两个算法永远像牛 阅读全文
posted @ 2017-07-26 22:10 谦芊珺 阅读(265) 评论(0) 推荐(0) 编辑