摘要: 一、hbase简介 hbase是建立在hdfs上的面向列的分布式数据库。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。 HBase的特点 大:一个表可以有上亿行,上百万列。 面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。 稀疏:对于为空(NULL)的列,并不占用存储空间, 阅读全文
posted @ 2018-05-16 15:29 hugh_tan 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 一、hive基础 Hive是一个基于Hadoop的数据仓库,使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层,设计目的是让SQL技能良好,但不熟悉MapReduce 、Java技能较弱的分析师可以查询海量数据。Hive提供了比较完整的SQL功能(本质是将SQL转换为MapR 阅读全文
posted @ 2018-05-13 09:45 hugh_tan 阅读(1147) 评论(0) 推荐(0) 编辑
摘要: 参考: https://www.zybuluo.com/frank-shaw/note/206604 一、MapReduce数据处理流程 关于上图,可以做出以下逐步分析: 二、MapReduce在Hadoop上的具体实现 这个实现机制就是MapReduce1,在Hadoop2.x的时候实现机制变成了 阅读全文
posted @ 2018-05-05 21:15 hugh_tan 阅读(2183) 评论(0) 推荐(1) 编辑
摘要: 一、分类 1、精确率 被识别成正类的,有多少是真正的正类。 2、召回率 真正的正类,有多少等被找出来(召回)。 3、准确率 被分类样本总数中,有多少是正确分类的。 4、F1 5、平均精确率(AP)average precision Precision-recall曲线以下面积 6、AUC(area 阅读全文
posted @ 2018-05-04 14:43 hugh_tan 阅读(1680) 评论(0) 推荐(0) 编辑
摘要: 一、spark基础架构 spark和Hadoop的基础架构类似,采用了分布式计算中的Master-Slave模型。 Master是对应集群中的含有Master进程的节点,Slave是集群中含有Worker进程的节点。 1、物理节点逻辑 Master:作为整个集群的控制器,负责整个集群的正常运行,负责 阅读全文
posted @ 2018-04-30 09:54 hugh_tan 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.sina.com.cn/s/blog_4aca42510102vuxo.html 英文原地址:http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/ 一、Hadoo 阅读全文
posted @ 2018-04-22 21:23 hugh_tan 阅读(364) 评论(0) 推荐(0) 编辑
摘要: 一、特征工程 数据决定了机器学习的上限,而算法只是尽可能逼近这个上限。如果输入的数据本身不反应客观事实,比如数据采集不充分,异常数据、噪声数据、冗余数据太多,再牛逼的算法也无能为力。所以需要对输入数据(特征)有一个充分采集、清理、选择的过程,让算法模型更好的识别到客观事实的规律所在。 特征工程大体上 阅读全文
posted @ 2018-04-14 21:17 hugh_tan 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 一、提升方法基本模型 提升方法的基本思想是将多个学习器的结果进行适当的综合得到判断。这多个学习器多为弱学习器构成,因为弱学习器一般容易构造(比如,提升树算法中就以二叉树桩为弱分类器构造提升树),而组合这些弱学习器能构成一个强学习器。 提升方法面对的两个问题是:一,如何在每一轮改变数据的权重或概率分布 阅读全文
posted @ 2018-04-12 17:56 hugh_tan 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 一、基本模型 朴素贝叶斯分类模型的基本思想就是贝叶斯公式,对以特征为条件的各类别的后验概率。 贝叶斯公式如下: 对标朴素贝叶斯分类模型的公式如下: 分子中的第二项为每个类别的概率(实际运算即频率),如下: 第一项为每个类别内部(即以类别为条件)特征的联合概率,如下: 但随着特征的每个维度取值增加,模 阅读全文
posted @ 2018-04-11 23:02 hugh_tan 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 一、模型概念 逻辑回归将线性函数复合于逻辑斯蒂函数中,用其取值估计分类概率,从而在空间形成超平面对样本点进行分类。 Logistic回归实质:发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因,是发生和未发生的概率成为了比值 ,这个比值就 阅读全文
posted @ 2018-04-09 13:02 hugh_tan 阅读(187) 评论(0) 推荐(0) 编辑