Hadoop - 随笔分类 - boonya

Docker在本地搭建Hadoop分布式集群

摘要：学习Hadoop集群环境搭建是Hadoop入门必经之路。搭建分布式集群通常有两个办法：要么找多台机器来部署（常常找不到机器）或者在本地开多个虚拟机（开销很大，对宿主机器性能要求高，光是安装多个虚拟机系统就得搞半天……）。那么，问题来了！有没有更有可行性的办法？提到虚拟化，Docker最近很阅读全文

posted @ 2020-09-01 15:53 boonya 阅读(427) 评论(0) 推荐(0)

Hadoop 结合Spark环境搭建

摘要：Hadoop Hadoop-2.7.2集群的搭建集群 Spark 安装Scala-2.11.7 spark-2.2.0安装和部署Spark集群阅读全文

posted @ 2020-09-01 15:50 boonya 阅读(230) 评论(0) 推荐(0)

Hadoop小文件存储方案

摘要：原文地址：https://www.cnblogs.com/ballwql/p/8944025.html HDFS总体架构在介绍文件存储方案之前，我觉得有必要先介绍下关于HDFS存储架构方面的一些知识，在对架构有初步了解后，才会明白为什么要单独针对小文件展开介绍，小文件存储和其它文件存储区别在什么地阅读全文

posted @ 2019-03-11 08:52 boonya 阅读(870) 评论(0) 推荐(0)

Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop

摘要：Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop的相关介绍。 Hive Pig和Hive的对比摘要: Pig Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如阅读全文

posted @ 2019-01-13 16:50 boonya 阅读(470) 评论(0) 推荐(0)

Hadoop框架详解

摘要：阅读目录： Hadoop框架详解 Hadoop项目主要包括以下四个模块 Apache Hadoop起源一张图了解分布式的好处（数据量达到500G就可以考虑使用大数据处理了） HDFS NameNode DataNode 文件 MapReduce计算框架（基于磁盘IO进行迭代，开销较大） YARN 阅读全文

posted @ 2019-01-13 16:31 boonya 阅读(250) 评论(0) 推荐(0)

Windows Hadoop Error: JAVA_HOME is incorrectly set.

摘要：出现这个问题，首先java -version java version "1.8.0_91"Java(TM) SE Runtime Environment (build 1.8.0_91-b15)Java HotSpot(TM) 64-Bit Server VM (build 25.91-b15, 阅读全文

posted @ 2018-08-22 13:39 boonya 阅读(231) 评论(0) 推荐(0)

Hadoop学习：Map/Reduce初探与小Demo实现

摘要：原文地址：https://blog.csdn.net/liyong199012/article/details/25423221 一、概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题，可以使阅读全文

posted @ 2018-08-21 18:11 boonya 阅读(478) 评论(0) 推荐(0)

Hadoop docs

摘要：原文地址：http://hadoop.apache.org/docs/ Index of /docs 阅读全文

posted @ 2018-04-16 22:44 boonya 阅读(289) 评论(0) 推荐(0)

Hadoop On Demand

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/hod.html 简介文档简介文档简介 Hadoop On Demand(HOD)是一个能在大型物理集群上供应虚拟hadoop集群的系统。它使用Torque资源管理器分配节点。它可以在分配的节点上启动H 阅读全文

posted @ 2018-04-16 22:37 boonya 阅读(199) 评论(0) 推荐(0)

Hadoop Archives

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/hadoop_archives.html 什么是Hadoop archives? 如何创建archive? 如何查看archives中的文件? 什么是Hadoop archives? 如何创建archive? 阅读全文

posted @ 2018-04-16 22:36 boonya 阅读(150) 评论(0) 推荐(0)

Hadoop Streaming

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/streaming.html Hadoop Streaming Streaming工作原理将文件打包到提交的作业中 Streaming选项与用法只使用Mapper的作业为作业指定其他插件 Hadoop S 阅读全文

posted @ 2018-04-16 22:35 boonya 阅读(211) 评论(0) 推荐(0)

Hadoop本地库

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/native_libraries.html 目的组件使用方法支持的平台构建Hadoop本地库注意使用DistributedCache 加载本地库目的组件使用方法支持的平台构建Hadoop本阅读全文

posted @ 2018-04-16 22:33 boonya 阅读(199) 评论(0) 推荐(0)

Hadoop Map/Reduce教程

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子：WordCount v1.0 源代码用法解释 Map/Reduce - 用户界面核心功能描述 Mapper Reducer 阅读全文

posted @ 2018-04-16 22:32 boonya 阅读(290) 评论(0) 推荐(0)

Hadoop DistCp 使用指南

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/distcp.html 概述使用方法基本使用方法选项选项索引更新和覆盖附录 Map数目不同HDFS版本间的拷贝 Map/Reduce和副效应概述使用方法基本使用方法选项选项索引更新和覆阅读全文

posted @ 2018-04-16 22:31 boonya 阅读(526) 评论(0) 推荐(0)

Hadoop Shell命令

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge l 阅读全文

posted @ 2018-04-16 22:28 boonya 阅读(115) 评论(0) 推荐(0)

Hadoop命令手册

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html 概述常规选项用户命令 archive distcp fs fsck jar job pipes version CLASSNAME 管理命令 balancer da 阅读全文

posted @ 2018-04-16 22:26 boonya 阅读(246) 评论(0) 推荐(0)

HDFS配额管理指南

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_quota_admin_guide.html Hadoop分布式文件系统(HDFS)允许管理员为每个目录设置配额。新建立的目录没有配额。最大的配额是Long.Max_Value。配额为1可以强制目阅读全文

posted @ 2018-04-16 22:24 boonya 阅读(217) 评论(0) 推荐(0)

HDFS权限管理用户指南

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_permissions_guide.html 概述用户身份理解系统的实现文件系统API变更 Shell命令变更超级用户 Web服务器在线升级配置参数概述用户身份理解系统的实现文件系阅读全文

posted @ 2018-04-16 22:22 boonya 阅读(1155) 评论(0) 推荐(0)

Hadoop分布式文件系统使用指南

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_user_guide.html 目的概述先决条件 Web接口 Shell命令 DFSAdmin命令 Secondary NameNode Rebalancer 机架感知（Rack awarenes 阅读全文

posted @ 2018-04-16 22:21 boonya 阅读(218) 评论(0) 推荐(0)

Hadoop分布式文件系统：架构和设计

摘要：原文地址：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html 引言前提和设计目标硬件错误流式数据访问大规模数据集简单的一致性模型 “移动计算比移动数据更划算” 异构软硬件平台间的可移植性 Namenode 和 Datanode 阅读全文

posted @ 2018-04-16 22:17 boonya 阅读(1362) 评论(0) 推荐(0)

随笔分类 - Hadoop

公告