数据驱动

2019年11月8日

摘要：这篇文章主要介绍Hive的概念。简介: Hive中文名叫数据仓库管理系统，之前我们操作MapReduce必须通过编写代码或者通过特殊命令来实现，有了Hive我们通过常用的SQL语句就能操作MapReduce集群了。是不是感觉很方便。这也是方便不懂MapReduce原理，懂SQL语句的人用的。有阅读全文

posted @ 2019-11-08 17:08 数据驱动阅读(1882) 评论(0) 推荐(0)

2019年10月30日

大数据基础---MapReduce-API操作

摘要：一.环境 Hadoop部署环境： Centos3.10.0-327.el7.x86_64 Hadoop2.6.5 Java1.8.0_221 代码运行环境: Windows 10 Hadoop 2.6.5 二.安装Hadoop-Eclipse-Plugin 在Eclipse中编译和运行Mapredu 阅读全文

posted @ 2019-10-30 14:37 数据驱动阅读(595) 评论(0) 推荐(0)

2019年10月29日

大数据基础---HDFS-API

摘要：第一步：创建一个新的项目并导入需要的jar包公共核心包公共依赖包 hdfs核心包 hdfs依赖包第二步：将Linux中hadoop的配置文件拷贝到项目的src目录下第三步：配置windows本地的hadoop环境变量（HADOOP_HOME：hadoop的安装目录 Path：在后面添加ha 阅读全文

posted @ 2019-10-29 16:09 数据驱动阅读(530) 评论(0) 推荐(0)

2019年10月26日

大数据基础---通过Yarn搭建MapReduce和应用实例

摘要：上一篇中我们了解了MapReduce和Yarn的基本概念，接下来带领大家搭建下Mapreduce-HA的框架。结构图如下：开始搭建：一.配置环境注:可以现在一台计算机上进行配置，然后分发给其它服务器 1.1 编辑mapred-site.xml文件：进入目录 /opt/hadoop/hado 阅读全文

posted @ 2019-10-26 17:20 数据驱动阅读(721) 评论(0) 推荐(0)

2019年9月24日

大数据基础---Map/Reduce，Yarn是什么？

摘要：简单概括：Map/Reduce是分布式离线处理的一个框架。 Yarn是Map/Reduce中的一个资源管理器。一.图形说明下Map/Reduce结构：官方示意图：另外还可以参考这个：流程介绍： HDFS首先会把块进行逻辑上切片处理，然后进行Map映射。一个切片对应一个Map映射。因为文件内阅读全文

posted @ 2019-09-24 07:42 数据驱动阅读(689) 评论(0) 推荐(0)

2019年9月16日

大数据基础---HDFS-HA搭建

摘要：一.简述上一篇了解了Zookeeper和HDFS的一些概念，今天就带大家从头到尾搭建一下，其中遇到的一些坑也顺便记录下。 1.1 搭建的拓扑图如下： 1.2 部署环境：Centos3.1，java1.8.0 ，Hadoop3.2，Zookeeper3.5.5 Linux环境搭建我这里就不介绍了，请阅读全文

posted @ 2019-09-16 10:03 数据驱动阅读(758) 评论(0) 推荐(0)

2019年9月15日

大数据基础---HDFS，Zookeeper，ZookeeperFailOverController（简称:ZKFC），JournalNode是什么？

摘要： HDFS介绍：简述： Hadoop Distributed File System（HDFS）是一种分布式文件系统，设计用于在商用硬件上运行。它与现有的分布式文件系统有许多相似之处。但是，与其他分布式文件系统的差异很大。HDFS具有高度容错能力，旨在部署在低成本硬件上。HDFS提供对应用程序数据的阅读全文

posted @ 2019-09-15 10:12 数据驱动阅读(3607) 评论(0) 推荐(0)

大数据基础---Hadoop是什么？

摘要：简单概括：Hadoop是由Apache组织使用Java语言开发的一款应对大数据存储和计算的分布式开源框架。 Hadoop的起源 2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制阅读全文

posted @ 2019-09-15 10:01 数据驱动阅读(1026) 评论(0) 推荐(0)

2019年9月14日

大数据基础

摘要：下面整理了“大数据基础”的一系列知识，可供学习和参考。 --Java-- --Linux-- --Hadoop-- >>Hadoop是什么？ >>HDFS，Zookeeper，ZookeeperFailOverController（简称:ZKFC），JournalNode是什么？ >>HDFS-HA 阅读全文

posted @ 2019-09-14 00:52 数据驱动阅读(2944) 评论(0) 推荐(1)

2019年9月13日

大数据总体介绍

摘要： 1.大数据概念 1.1 什么是大数据大数据顾名思义就是大量的数据，一般这些数据都是PB级以上。这些数据的特点是种类多（有视频啊，图片啊，文字啊，语音啊等），数据量大（PB级以上，1EB=1024PB，1PB=1024T，1T=1024G），需要快速处理（后面会介绍分布式处理技术），有价值（没有价值阅读全文

posted @ 2019-09-13 22:40 数据驱动阅读(1529) 评论(0) 推荐(0)

公告