Hadoop - 随笔分类(第2页) - 大数据从业者FelixZh

MapReduce过程详解及其性能优化

摘要：http://blog.csdn.net/aijiudu/article/details/72353510 废话不说直接来一张图如下：从JVM的角度看Map和Reduce Map阶段包括：第一读数据：从HDFS读取数据 1、问题:读取数据产生多少个Mapper？？ Mapper数据过大的话，会产阅读全文

posted @ 2018-03-19 19:26 大数据从业者FelixZh 阅读(12113) 评论(0) 推荐(1) 编辑

ORCFILE IN HDP 2: BETTER COMPRESSION, BETTER PERFORMANCE

摘要：ORCFILE IN HDP 2: BETTER COMPRESSION, BETTER PERFORMANCE by Carter Shanklin by Carter Shanklin The upcoming Hive 0.12 is set to bring some great new a 阅读全文

posted @ 2018-03-19 18:58 大数据从业者FelixZh 阅读(372) 评论(0) 推荐(0) 编辑

spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长（计算Partition时间太长）且产出orc单个文件中stripe个数太多问题解决方案

摘要：1、背景：控制上游文件个数每天7000个，每个文件大小小于256M，50亿条+，orc格式。查看每个文件的stripe个数，500个左右，查询命令：hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11 阅读全文

posted @ 2018-03-19 17:18 大数据从业者FelixZh 阅读(3695) 评论(1) 推荐(0) 编辑

Hive-ORC文件存储格式

摘要：ORC文件格式是从Hive-0.11版本开始的。关于ORC文件格式的官方文档，以及基于官方文档的翻译内容这里就不赘述了，有兴趣的可以仔细研究了解一下。本文接下来根据论文《Major Technical Advancements in Apache Hive》中的内容进行深入的研究。一、ORC文件格阅读全文

posted @ 2018-03-19 16:51 大数据从业者FelixZh 阅读(1590) 评论(0) 推荐(0) 编辑

比MR至少快5倍的神器，竟然是它

摘要：Hive简介 Hive是一个基于 Hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它最初是应Facebook对每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的，Hive把海量数据存储于Hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并阅读全文

posted @ 2018-03-19 16:12 大数据从业者FelixZh 阅读(1440) 评论(0) 推荐(0) 编辑

【漫画解读】HDFS存储原理

摘要：根据Maneesh Varshney的漫画改编，以简洁易懂的漫画形式讲解HDFS存储机制与运行原理，非常适合Hadoop/HDFS初学者理解。一、角色出演如上图所示，HDFS存储相关角色与功能如下： Client：客户端，系统使用者，调用HDFS API操作文件；与NN交互获取文件元数据；与DN 阅读全文

posted @ 2018-03-08 18:09 大数据从业者FelixZh 阅读(1975) 评论(0) 推荐(0) 编辑

hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息(Locations)

摘要：关键字：hdfs fsck、block、locations 在HDFS中，提供了fsck命令，用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。 fsck命令必须由HDFS超级用户来执行，普通用户无权限。下面介绍每一个选项的含义及用法。查看文件中损坏的块（-list- 阅读全文

posted @ 2018-03-08 17:54 大数据从业者FelixZh 阅读(6812) 评论(0) 推荐(0) 编辑

HDFS的dfs.replication不同验证

摘要：对于上传文件到hdfs上时，当时hadoop的副本系数是几，这个文件的块数副本数就会有几份，无论以后你怎么更改系统副本系统，这个文件的副本数都不会改变，也就说上传到分布式系统上的文件副本数由当时的系统副本数决定，不会受replication的更改而变化，除非用命令来更改文件的副本数。因为dfs.re 阅读全文

posted @ 2018-01-10 14:17 大数据从业者FelixZh 阅读(2661) 评论(0) 推荐(0) 编辑

Set replication in Hadoop

摘要：I was trying loading file using hadoop API as an experiment. I want to set replication to minimum as this one is for experiment. I first tried this wi 阅读全文

posted @ 2018-01-09 17:45 大数据从业者FelixZh 阅读(583) 评论(0) 推荐(0) 编辑

HDFS & MapReduce异构存储性能测试白皮书

摘要：阅读全文

posted @ 2016-11-06 21:01 大数据从业者FelixZh 阅读(403) 评论(0) 推荐(0) 编辑

深入浅出解析大数据平台架构

摘要：目录：什么是大数据 Hadoop介绍-HDFS、MR、Hbase 大数据平台应用举例-腾讯公司的大数据平台架构 “就像望远镜让我们能够感受宇宙，显微镜让我们能够观测微生物一样，大数据正在改变我们的生活以及理解世界的方式……”。大数据的4V特征-来源公司的“大数据” 随着公司业务的增长，大量和阅读全文

posted @ 2016-11-06 18:22 大数据从业者FelixZh 阅读(883) 评论(0) 推荐(0) 编辑

hash 分区的用途是什么?

摘要：Hash partitioning enables easy partitioning of data that does not lend itself to rangeor list partitioning. It does this with a simple syntax and is e 阅读全文

posted @ 2016-09-30 09:45 大数据从业者FelixZh 阅读(1126) 评论(0) 推荐(0) 编辑

HDFS数据迁移解决方案之DistCp工具的巧妙使用

摘要：前言在当今每日信息量巨大的社会中,源源不断的数据需要被安全的存储.等到数据的规模越来越大的时候,也许瓶颈就来了,没有存储空间了.这时候怎么办,你也许会说,加机器解决,显然这是一个很简单直接但是又显得有些欠缺思考的办法.无谓的加机器只会带来无限上升的成本消耗,更好的办法应该是做到更加精细化的数据存储阅读全文

posted @ 2016-09-29 15:45 大数据从业者FelixZh 阅读(13732) 评论(1) 推荐(1) 编辑

CDH 的Cloudera Manager免费与收费版的对比表

摘要：注：1.snmp traps：SNMP是指简单网络管理协议，trap是它规定的一种通信方式，用于被管理的设备主动向充当管理者的设备报告自己的异常信息。阅读全文

posted @ 2016-09-20 13:48 大数据从业者FelixZh 阅读(8428) 评论(0) 推荐(0) 编辑

hadoop系列讨论

摘要：生产环境下cloudera的cdh版本更受欢迎，但是貌似cloudera对于YARN的开发力度不是很突出，所以在apache与cdh版本选择的时候，大家是怎么考虑的？生产环境下cloudera的cdh版本更受欢迎，但是貌似cloudera对于YARN的开发力度不是很突出，所以在apache与cdh 阅读全文

posted @ 2016-09-20 08:43 大数据从业者FelixZh 阅读(453) 评论(0) 推荐(0) 编辑

新手指导：教你如何查看识别hadoop是32位还是64位

摘要：1.从哪些地方可以识别hadoop是32位还是64位？2.hadoop本地库在什么位置？hadoop在安装的时候，我们需要知道hadoop版本是32位还是64位。hadoop官网本来提供的都是32位，因为我们大部分都是64位，所以不得不编译。后来官网从hadoop2.5版本开始就提供了64位。为了防... 阅读全文

posted @ 2016-01-08 21:24 大数据从业者FelixZh 阅读(539) 评论(0) 推荐(0) 编辑

CentOS 64位上编译 Hadoop 2.6.0

摘要：Hadoop不提供64位编译好的版本，只能用源码自行编译64位版本。学习一项技术从安装开始，学习hadoop要从编译开始。1.操作系统编译环境yum install cmake lzo-devel zlib-devel gcc gcc-c++ autoconf automake libtool nc... 阅读全文

posted @ 2016-01-08 19:22 大数据从业者FelixZh 阅读(277) 评论(0) 推荐(0) 编辑

Centos 6.5 X64 环境下编译 hadoop 2.6.0 --已验证

摘要：详细参照源码路径下的BUILDING.txt文件 Centos 6.5 x64 hadoop 2.6.0 jdk 1.7 protobuf-2.5.0 maven-3.0.5 set environment export JAVA_HOME=/home/linux/jdk export CLASSP 阅读全文

posted @ 2016-01-08 19:20 大数据从业者FelixZh 阅读(309) 评论(0) 推荐(0) 编辑

ubuntu 环境下编译 hadoop 2.6.0的简单方法

摘要：由于服务器一般都64位系统， hadoop网站的release版本32位native库不能运行，所以需要自己在编译一下。以下是我采用的一个编译的过程，比较简单，不用下载各种版本及环境配置，通过命令就能自动完成了。系统环境为ubuntu server 64位版。1、安装JDK，我这里使用的是OenJD... 阅读全文

posted @ 2016-01-08 12:05 大数据从业者FelixZh 阅读(389) 评论(0) 推荐(0) 编辑

在Linux上编译Hadoop-2.4.0实践与总结

摘要：问题导读：1.编译源码前需要安装哪些软件？2.安装之后该如何设置环境变量？3.为什么不要使用JDK1.8？4.mvn package -Pdist -DskipTests -Dtar的作用是什么？1. 前言Hadoop-2.4.0的源码目录下有个BUILDING.txt文件，它介绍了如何在Linux... 阅读全文

posted @ 2016-01-07 20:44 大数据从业者FelixZh 阅读(443) 评论(0) 推荐(0) 编辑

大数据从业者

最新文章，见微信公众号：大数据从业者

随笔分类 - Hadoop

公告