摘要: Data Types - MLlib(数据类型) MLlib支持存储在单机上的局部向量和局部矩阵,也可以支持通过一个或多个RDD(可伸缩数据集)表示的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型,实际上底层的线性代数运算由Breeze (机器学习和数值运算的Scala库)和 jblas 阅读全文
posted @ 2017-01-09 16:27 鱼果说 阅读(6829) 评论(0) 推荐(0) 编辑
摘要: 一、两者分别是什么: Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够 阅读全文
posted @ 2017-01-09 16:16 鱼果说 阅读(3179) 评论(0) 推荐(0) 编辑
摘要: HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有两种方式: 1、通过g 阅读全文
posted @ 2017-01-09 16:15 鱼果说 阅读(17439) 评论(0) 推荐(1) 编辑
摘要: 一、HBase的特点是什么 1.HBase一个分布式的基于列式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。 2.HBase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 3.HBase为null的记录不会被存储. 4.基 阅读全文
posted @ 2017-01-09 16:14 鱼果说 阅读(9000) 评论(0) 推荐(2) 编辑