摘要:
4.1概述 1. HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化松散数据。 2. HBase与传统数据库的区别 数据类型上的区别,它把数据存储为未经解释的字符串 数据操作,没有像关系型数据库那样的复杂数据操作,通常采用单 阅读全文
摘要:
3.1分布式文件 1. HDFS默认一个块的大小是64MB,与普通文件不同的是如果一个文件小于数据块的大小,它并不占用整个数据块的存储空间。 2. 主节点又叫名称节点;另一个叫从节点又叫数据节点。名称节点负责文件和目录的创建、删除和重命名,同时管理数据节点和文件块的映射关系。数据节点负责数据存储和读 阅读全文
摘要:
2.1概述 1. Hadoop是Apache旗下的开源分布式计算平台,是基于Java开发的,具有很好的跨平台特性,其中核心文件是MapReduce和HDFS,而HDFS是根据谷歌文件系统GFS开源实现,是面向普通硬件环境的分布式文件系统,具有很好的容错性和很高的读写速度。MapReduce是根据谷歌 阅读全文
摘要:
1.2大数据概念 数据量大 数据类型繁多 处理速度快 价值密度低 1.3大数据影响 研究变化经历了从 实验 到 理论 到 计算 再到 数据 思维的变化 1. 全样而非抽样 2. 效率而非精准 3. 相关而非因果 1.6大数据计算模式 1. 批处理计算,主要针对于大规模的数据批量处理。MapReduc 阅读全文