随笔分类 - 大数据
大数据
摘要:功能: Mysql数据迁移至Hbase, 通过Phoenix框架作为操作Hbase的CRUD层, 平滑过渡sql语法使用, 解决Mysql单表数据量过大导致查询效率低的问题. Hbase的性能自然不用多说, PB级别的数据处理起来也没什么问题. 看一下Phoenix官方给出的性能介绍: http:/
阅读全文
摘要:hadoopMapReduce 1. MapReduce流程 2. Shuffle流程 1. MapReduce流程 MapReduce流程 切片: 对数据进行逻辑划分,默认大小是一个block块大小. 以文件为单位,所以注意小文件问题 计算规则:Math.max(minSize, Math.min
阅读全文
摘要:hadoophdfs 1. HDFS写流程 2. HDFS写流程 1. HDFS写流程 HDFS写流程 副本存放策略: 上传的数据块后,触发一个新的线程,进行存放。 第一个副本:与client最近的机器(基于性能考虑) 第二个副本:跨机器存放该副本(考虑数据安全性) 第三个副本:与第一个,第二个副本
阅读全文
摘要:mavenhdfsMapReduce 1. 配置maven环境 2. 创建maven项目 2.1 pom.xml 依赖 2.2 单元测试 3. hdfs文件操作 3.1 文件上传和下载 3.2 RPC远程方法调用 4. MapReduce操作 4.1 WordCount 4.2 本地模式运行 4.3
阅读全文
摘要:hadoopsshrsyncntpMapReduce 1. 分布式集群规划 2. 网络IP规划 3. 修改hadoop配置 3.1 core-site.xml 3.2 hdfs-site.xml 3.3 mapred-site.xml 3.4 yarn-site.xml 3.5 slaves 3.6
阅读全文
摘要:1. 下载压缩包 2. 配置环境变量 3. 配置Hadoop的JAVA_HOME路径 4. WordCount 1. 下载压缩包 下载Hadoop binary二进制压缩包 https://hadoop.apache.org/releases.html 上传到Linux并解压 2. 配置环境变量 提
阅读全文
摘要:HadoopHDFSMapReduce Hadoop是Apache基金会所开发的分布式系统基础架构。最核心的设计就是:HDFS和MapReduce。 HDFS为海量的数据提供了存储 MapReduce则为海量的数据提供了计算 HDFS 分布式文件系统(Hadoop Distributed File
阅读全文