随笔分类 - Hadoop
hadoop
摘要:学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法: 要么找多台机器来部署(常常找不到机器) 或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟机系统就得搞半天……)。 那么,问题来了! 有没有更有可行性的办法? 提到虚拟化,Docker最近很
阅读全文
摘要:Hadoop Hadoop-2.7.2集群的搭建集群 Spark 安装Scala-2.11.7 spark-2.2.0安装和部署Spark集群
阅读全文
摘要:原文地址:https://www.cnblogs.com/ballwql/p/8944025.html HDFS总体架构 在介绍文件存储方案之前,我觉得有必要先介绍下关于HDFS存储架构方面的一些知识,在对架构有初步了解后,才会明白为什么要单独针对小文件展开介绍,小文件存储和其它文件存储区别在什么地
阅读全文
摘要:Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop的相关介绍。 Hive Pig和Hive的对比 摘要: Pig Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如
阅读全文
摘要:阅读目录: Hadoop框架详解 Hadoop项目主要包括以下四个模块 Apache Hadoop起源 一张图了解分布式的好处(数据量达到500G就可以考虑使用大数据处理了) HDFS NameNode DataNode 文件 MapReduce计算框架 (基于磁盘IO进行迭代,开销较大) YARN
阅读全文
摘要:出现这个问题,首先java -version java version "1.8.0_91"Java(TM) SE Runtime Environment (build 1.8.0_91-b15)Java HotSpot(TM) 64-Bit Server VM (build 25.91-b15,
阅读全文
摘要:原文地址:https://blog.csdn.net/liyong199012/article/details/25423221 一、 概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/ Index of /docs
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hod.html 简介 文档 简介 文档 简介 Hadoop On Demand(HOD)是一个能在大型物理集群上供应虚拟hadoop集群的系统。它使用Torque资源管理器分配节点。它可以在分配的节点上启动H
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hadoop_archives.html 什么是Hadoop archives? 如何创建archive? 如何查看archives中的文件? 什么是Hadoop archives? 如何创建archive?
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/streaming.html Hadoop Streaming Streaming工作原理 将文件打包到提交的作业中 Streaming选项与用法 只使用Mapper的作业 为作业指定其他插件 Hadoop S
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/native_libraries.html 目的 组件 使用方法 支持的平台 构建Hadoop本地库 注意 使用DistributedCache 加载本地库 目的 组件 使用方法 支持的平台 构建Hadoop本
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的 先决条件 概述 输入与输出 例子:WordCount v1.0 源代码 用法 解释 Map/Reduce - 用户界面 核心功能描述 Mapper Reducer
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/distcp.html 概述 使用方法 基本使用方法 选项 选项索引 更新和覆盖 附录 Map数目 不同HDFS版本间的拷贝 Map/Reduce和副效应 概述 使用方法 基本使用方法 选项 选项索引 更新和覆
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge l
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html 概述 常规选项 用户命令 archive distcp fs fsck jar job pipes version CLASSNAME 管理命令 balancer da
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_quota_admin_guide.html Hadoop分布式文件系统(HDFS)允许管理员为每个目录设置配额。 新建立的目录没有配额。 最大的配额是Long.Max_Value。配额为1可以强制目
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_permissions_guide.html 概述 用户身份 理解系统的实现 文件系统API变更 Shell命令变更 超级用户 Web服务器 在线升级 配置参数 概述 用户身份 理解系统的实现 文件系
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_user_guide.html 目的 概述 先决条件 Web接口 Shell命令 DFSAdmin命令 Secondary NameNode Rebalancer 机架感知(Rack awarenes
阅读全文
摘要:原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html 引言 前提和设计目标 硬件错误 流式数据访问 大规模数据集 简单的一致性模型 “移动计算比移动数据更划算” 异构软硬件平台间的可移植性 Namenode 和 Datanode
阅读全文