摘要:
大数据技术之Hadoop(MapReduce) 一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分 阅读全文
摘要:
Hadoop案例(一)之日志清洗 日志清洗案例 一. 简单解析版 1)需求 去除日志中字段长度小于等于11的日志。 2)输入数据 3)实现代码 (1)编写LogMapper import java.io.IOException; import org.apache.hadoop.io.LongWri 阅读全文
摘要:
大数据技术之Hadoop(Map-Reduce) 一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 阅读全文
摘要:
大数据技术之Hadoop(Map-Reduce) 一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 阅读全文
摘要:
大数据技术之Hadoop (HDFS文件系统) 一 HDFS概念 1.1 概念 HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 1.2 阅读全文
摘要:
大数据技术之Hadoop(入门) 一 大数据概论 预科内容 二 从Hadoop框架讨论大数据生态 n 名字起源 u 该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的 u n 项目起源 u Hadoop由 Apache Software 阅读全文
摘要:
大数据技术之Hadoop (HDFS文件系统) 一 HDFS概念 1.1 概念 HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 1.2 阅读全文
摘要:
大数据技术之Zookeeper 一 Zookeeper概述 1.1 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 1. 阅读全文
摘要:
第三章 分布式文件系统HDFS 3.1 HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、 阅读全文
摘要:
MySQL安装配置 官网下载地址 https://dev.mysql.com/downloads/file/?id=471503 2.检测本地是否有mysql已存在的包 rpm -qa | grep mysql 3.检测本地是否有mariadb已存在的包 rpm -qa | grep mariadb 阅读全文