上一页 1 ··· 10 11 12 13 14
摘要: 第一步:创建一个新的项目 并导入需要的jar包 公共核心包 公共依赖包 hdfs核心包 hdfs依赖包 第二步:将Linux中hadoop的配置文件拷贝到项目的src目录下 第三步:配置windows本地的hadoop环境变量(HADOOP_HOME:hadoop的安装目录 Path:在后面添加ha 阅读全文
posted @ 2019-10-29 16:09 数据驱动 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 上一篇中我们了解了MapReduce和Yarn的基本概念,接下来带领大家搭建下Mapreduce-HA的框架。 结构图如下: 开始搭建: 一.配置环境 注:可以现在一台计算机上进行配置,然后分发给其它服务器 1.1 编辑mapred-site.xml文件: 进入目录 /opt/hadoop/hado 阅读全文
posted @ 2019-10-26 17:20 数据驱动 阅读(675) 评论(0) 推荐(0) 编辑
摘要: 简单概括:Map/Reduce是分布式离线处理的一个框架。 Yarn是Map/Reduce中的一个资源管理器。 一.图形说明下Map/Reduce结构: 官方示意图: 另外还可以参考这个: 流程介绍: HDFS首先会把块进行逻辑上切片处理,然后进行Map映射。一个切片对应一个Map映射。 因为文件内 阅读全文
posted @ 2019-09-24 07:42 数据驱动 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 一.简述 上一篇了解了Zookeeper和HDFS的一些概念,今天就带大家从头到尾搭建一下,其中遇到的一些坑也顺便记录下。 1.1 搭建的拓扑图如下: 1.2 部署环境:Centos3.1,java1.8.0 ,Hadoop3.2,Zookeeper3.5.5 Linux环境搭建我这里就不介绍了,请 阅读全文
posted @ 2019-09-16 10:03 数据驱动 阅读(727) 评论(0) 推荐(0) 编辑
摘要: HDFS介绍: 简述: Hadoop Distributed File System(HDFS)是一种分布式文件系统,设计用于在商用硬件上运行。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异很大。HDFS具有高度容错能力,旨在部署在低成本硬件上。HDFS提供对应用程序数据的 阅读全文
posted @ 2019-09-15 10:12 数据驱动 阅读(3323) 评论(0) 推荐(0) 编辑
摘要: 简单概括:Hadoop是由Apache组织使用Java语言开发的一款应对大数据存储和计算的分布式开源框架。 Hadoop的起源 2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制 阅读全文
posted @ 2019-09-15 10:01 数据驱动 阅读(927) 评论(0) 推荐(0) 编辑
摘要: 下面整理了“大数据基础”的一系列知识,可供学习和参考。 --Java-- --Linux-- --Hadoop-- >>Hadoop是什么? >>HDFS,Zookeeper,ZookeeperFailOverController(简称:ZKFC),JournalNode是什么? >>HDFS-HA 阅读全文
posted @ 2019-09-14 00:52 数据驱动 阅读(2763) 评论(0) 推荐(1) 编辑
摘要: 1.大数据概念 1.1 什么是大数据 大数据顾名思义就是大量的数据,一般这些数据都是PB级以上。这些数据的特点是种类多(有视频啊,图片啊,文字啊,语音啊等),数据量大(PB级以上,1EB=1024PB,1PB=1024T,1T=1024G),需要快速处理(后面会介绍分布式处理技术),有价值(没有价值 阅读全文
posted @ 2019-09-13 22:40 数据驱动 阅读(1498) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14