随笔分类 - hadoop
hadoop
3万字细品数据倾斜
摘要:作者:迷路剑客 链接:https://blog.csdn.net/baichoufei90/article/details/86554840 整理:大数据肌肉猿(BigData-BigMuscle) 大纲: 一、前言 二、什么是数据倾斜? 三、数据倾斜长什么样? 四、数据倾斜的原理 五、解决数据倾斜
阅读全文
Zookeeper简介与使用
摘要:1. Zookeeper概念简介: Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务 A、zookeeper是为别的分布式程序服务的 B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) C、Zookeeper所提供的服务涵盖:主从协
阅读全文
Hadoop(四)shell脚本定时采集日志数据到hdfs
摘要:#!/bin/bash#set java envexport JAVA_HOME=/wocloud/java/jdk1.7.0_45export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libe
阅读全文
Hadoop(三) HADOOP常用命令参数介绍
摘要:-help 功能:输出这个命令参数手册 -ls 功能:显示目录信息 示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的hdfs路径都可以简写 -->hadoop fs -ls / 等同于上一条命令的效果 -mkdir 功能:在hdf
阅读全文
Hadoop(二) HADOOP集群搭建
摘要:一、HADOOP集群搭建 1、集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有
阅读全文
Hadoop(一) HADOOP简介
摘要:1. HADOOP背景介绍 1.1 什么是HADOOP 1.2 HADOOP产生背景 ——分布式文件系统(GFS),可用于处理海量网页的存储 ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。 1.3 HADOOP在大数据、云计算中的位置和关系 1.4 国内外HADOOP应用案
阅读全文
关于java.io.IOException: HADOOP_HOME or hadoop.home.dir are not set.的问题
摘要:报错如下: 解决办法一: 根据 http://blog.csdn.net/baidu_19473529/article/details/54693523 配置hadoop_home变量 下载winutils地址https://github.com/srccodes/hadoop-common-2.2
阅读全文
hadoop 启动的时候datanode报错 Problem connecting to server
摘要:刚配置好的hadoop,namenode可以正常开启,但是datanode却不停的报错,并且不能正常启动: 2014-05-04 10:43:33,970 WARNorg.apache.hadoop.hdfs.server.datanode.DataNode: Problem connecting
阅读全文