摘要: 使用python语言进行MapReduce程序开发主要分为两个步骤,一是编写程序,二是用Hadoop Streaming命令提交任务。 还是以词频统计为例 一、程序开发1、Mapper 2、Reducer .... 写完发现其实只用map就可以处理了...reduce只用cat就好了 3、运行脚本 阅读全文
posted @ 2016-08-08 14:06 李闹闹童鞋 阅读(8789) 评论(2) 推荐(1) 编辑
摘要: Java版本程序开发过程主要包含三个步骤,一是map、reduce程序开发;第二是将程序编译成JAR包;第三使用Hadoop jar命令进行任务提交。 下面拿一个具体的例子进行说明,一个简单的词频统计,输入数据是一个单词文本,输出每个单词的出现个数。 一、MapReduce程序 标准的MapRedu 阅读全文
posted @ 2016-08-08 12:59 李闹闹童鞋 阅读(958) 评论(0) 推荐(0) 编辑
摘要: 上一篇博客介绍了隐马尔科夫模型的基本概念和概率计算问题。 这篇博客主要介绍马尔可夫模型的学习问题和预测问题。 一、学习算法 已知观测序列O(o1,o2,...oT),估计模型r的参数,使的观测序列O出现的概率P(O|r)最大 学习算法分为两种: (1)监督学习算法:训练数据包括观测序列(输入)和对应 阅读全文
posted @ 2016-07-25 18:23 李闹闹童鞋 阅读(510) 评论(2) 推荐(0) 编辑
摘要: 一、基本概念 1、马尔科夫假设:当前的状态只与之前的状态有关 2、马尔科夫过程:当前的状态只与前n个状态有关,被称为n阶马尔科夫模型。 3、马尔科夫链:可以理解为带有概率的状态转移链 3、一阶马尔科夫模型:当前的状态只与前一状态有关 (1)若有M个状态,则共有M M个状态转移 (2)转移概率:每一个 阅读全文
posted @ 2016-07-25 18:22 李闹闹童鞋 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 一、EM算法是什么? EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计。 作用:简单直白的说,估计参数 是一种生成模型 (1)用在概率模型中 (2)含有隐变量 (3)用极大似然估计方法估计参数 个人理解,概率模型中的一些参数,通常是一些概率: (1)如果概率模型中的变量全部可观测, 阅读全文
posted @ 2016-07-25 18:09 李闹闹童鞋 阅读(546) 评论(0) 推荐(0) 编辑
摘要: 一、集成方法: 1、什么是集成方法? 集成方法,又称元算法,是对算法的一种集成。集成方法可以有多种形式,可以使对不同算法的集成,也可以是同一算法在不同设置下的集成 2、为什么采用集成方法? 最通俗的理解,“三个臭皮匠,顶个诸葛亮”,对于分类,综合多个分类器的分类意见进行分类 3、弱分类器与强分类器 阅读全文
posted @ 2016-07-24 15:35 李闹闹童鞋 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 这篇博客主要包含两个部分: 1、结合拉格朗日算法和KKT条件对支持向量有一个定量的理解 带约束条件的最优化问题,通常可以采用拉格朗日方法求解 (1)约束条件为等式 —— 偏导=0即可 (2)约束条件为不等式 —— 还需要满足KKT条件 结合上述约束,将其带入硬间隔和软间隔支持向量机,可以通过拉格朗日 阅读全文
posted @ 2016-07-24 12:21 李闹闹童鞋 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 一、非线性分类问题 1、什么是非线性分类问题? 非线性分类问题是指通过利用非线性模型才能很好地进行分类的问题。 感知机、之前介绍的两种支持向量机模型都是通过一个超平面将数据分成正负两类。但是有些情况并非一条直接或者一个平面就能把数据切分,可能需要一条曲线或者一个超曲面。 2、非线性分类问题的解法? 阅读全文
posted @ 2016-07-22 23:05 李闹闹童鞋 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 结合之前:http://www.cnblogs.com/naonaoling/p/4184380.html 一、什么是支持向量机? 支持向量机是一种二类分类模型。 由于支持向量(与分离超平面距离最近的样本点)在确定分离超平面中起着决定性作用,所以将这种分类模型称为支持向量机。 特征: (1)二分类 阅读全文
posted @ 2016-07-22 20:39 李闹闹童鞋 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 结合之前的部落格:http://www.cnblogs.com/naonaoling/p/4173631.html 一、什么是决策树? 决策树是一种基本的分类和回归算法。 决策树模型呈树形结构,可以认为是if then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。 决策树模型由结点 阅读全文
posted @ 2016-07-21 19:16 李闹闹童鞋 阅读(543) 评论(0) 推荐(0) 编辑