07 2019 档案

摘要:Spark 2.x管理与开发 Spark Core 一、什么是Spark?(官网:http://spark.apache.org) 1、什么是Spark? 我的翻译:Spark是一个针对大规模数据处理的快速通用引擎。 Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利 阅读全文
posted @ 2019-07-26 02:23 jareny 阅读(477) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Scala 第一篇:Scala编程语言 一、Scala语言基础 1、Scala简介 Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。它也能运行于CLDC配置的Java ME 阅读全文
posted @ 2019-07-26 02:22 jareny 阅读(526) 评论(0) 推荐(0) 编辑
摘要:大数据技术之HBase 一、HBaes介绍 1.1、HBase简介 HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 大:上亿行、百万列 面向列:面向列(族)的存储和权限控制,列(簇)独立检索 稀疏:对于为空( 阅读全文
posted @ 2019-07-26 02:21 jareny 阅读(519) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Azkaban 一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作 阅读全文
posted @ 2019-07-26 02:20 jareny 阅读(1217) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Sqoop 一、Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。 请注意,1.99.7与1.4.6不兼容,且没有特征 阅读全文
posted @ 2019-07-26 02:19 jareny 阅读(386) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Hive 一 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL/SQL转化成MapReduce程序 1 阅读全文
posted @ 2019-07-26 02:18 jareny 阅读(788) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Flume 一、Flume简介 1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 2) Flume基于流式架构,容错性强,也很灵活简单。 3) Flume、Kafka用来实时进行数据收集,Spark、Flink 阅读全文
posted @ 2019-07-26 02:17 jareny 阅读(792) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Hadoop(MapReduce) 一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分 阅读全文
posted @ 2019-07-26 02:16 jareny 阅读(1244) 评论(0) 推荐(0) 编辑
摘要:Hadoop案例(一)之日志清洗 日志清洗案例 一. 简单解析版 1)需求 去除日志中字段长度小于等于11的日志。 2)输入数据 3)实现代码 (1)编写LogMapper import java.io.IOException; import org.apache.hadoop.io.LongWri 阅读全文
posted @ 2019-07-26 02:15 jareny 阅读(339) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Hadoop(Map-Reduce) 一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 阅读全文
posted @ 2019-07-26 02:14 jareny 阅读(1289) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Hadoop(Map-Reduce) 一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 阅读全文
posted @ 2019-07-26 02:13 jareny 阅读(313) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Hadoop (HDFS文件系统) 一 HDFS概念 1.1 概念 HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 1.2  阅读全文
posted @ 2019-07-26 02:12 jareny 阅读(2259) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Hadoop(入门) 一 大数据概论 预科内容 二 从Hadoop框架讨论大数据生态 n 名字起源 u 该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的 u n 项目起源 u Hadoop由 Apache Software 阅读全文
posted @ 2019-07-26 02:11 jareny 阅读(242) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Hadoop (HDFS文件系统) 一 HDFS概念 1.1 概念 HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 1.2  阅读全文
posted @ 2019-07-26 02:10 jareny 阅读(552) 评论(0) 推荐(0) 编辑
摘要:大数据技术之Zookeeper 一 Zookeeper概述 1.1 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 1. 阅读全文
posted @ 2019-07-26 02:09 jareny 阅读(375) 评论(0) 推荐(0) 编辑
摘要:第三章 分布式文件系统HDFS 3.1 HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、 阅读全文
posted @ 2019-07-17 00:48 jareny 阅读(1614) 评论(0) 推荐(0) 编辑
摘要:MySQL安装配置 官网下载地址 https://dev.mysql.com/downloads/file/?id=471503 2.检测本地是否有mysql已存在的包 rpm -qa | grep mysql 3.检测本地是否有mariadb已存在的包 rpm -qa | grep mariadb 阅读全文
posted @ 2019-07-05 23:17 jareny 阅读(81) 评论(0) 推荐(0) 编辑