随笔分类 - hadoop
摘要:第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org -- 2006年Google发表BigTabl
阅读全文
摘要:一.Hive语法详解 Hive 是基于Hadoop 构建的一套数据仓库分析系统,是一个用来搭建数仓的工具。它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行
阅读全文
摘要:HADOOP简介 一.大数据思维 1.什么是大数据思维 分而治之:把一个复杂的问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的中间结果,把各部分的中间结果组成整个问题的最终结果。 并行:提升速度的关键 分布式运行 计算与数据在一起 计算向数据移动 二.Hadoop
阅读全文
摘要:一.设置虚拟机 1.克隆三台虚拟机 设置IP地址和主机名称 2.设置免密钥登录 三台虚拟机各自生成密钥 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 设置映射名称 vim hosts (etc 目录下) 将密钥互相拷贝给对方 ssh-copy-id root@no
阅读全文
摘要:Hadoop 2x 一.Hadoop1.x的弊端 1.namenode只有一个-->容易发生单点故障:当前直接出现问题,整个集群没办法工作 2.namenode没办法扩充 NameNode会随着业务量的增大,内存中的数据会越来越大 会导致一直要增加内存来满足集群的需要 一旦业务量大大的超过内存那么业
阅读全文
摘要:HADOOP简介 一.大数据思维 1.什么是大数据思维 分而治之:把一个复杂的问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的中间结果,把各部分的中间结果组成整个问题的最终结果。 并行:提升速度的关键 分布式运行 计算与数据在一起 计算向数据移动 二.Hadoop
阅读全文