摘要: 1.随着互联网快速发展,数据量的快速膨胀,我们日增3000多亿数据量,因此需要针对PB级存储、几百TB的增量数据处理架构设计 2.系统逻辑划分总图: 暂不便透露 3.系统架构图: 4.大数据计算引擎我们是采用Apache Flink流式计算框架,并对其进行了一些优化,目前在生产环境,已经基本稳定运行 阅读全文
posted @ 2019-08-15 11:38 java与大数据征程 阅读(2481) 评论(0) 推荐(0) 编辑
摘要: hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA 注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库, 所以如果在64位的操作上安装had 阅读全文
posted @ 2017-10-18 17:16 java与大数据征程 阅读(878) 评论(0) 推荐(0) 编辑
摘要: Watermartks是通过additional的时间戳来控制窗口激活的时间,allowedLateness来控制窗口的销毁时间。 注: 因为此特性包括官方文档在1.3~1.5版本均未做改变,所以此处使用1.5版的文档 在EventTime的情况下, 1. 一条记录的事件时间来控制此条记录属于哪一个 阅读全文
posted @ 2018-07-08 19:07 java与大数据征程 阅读(1218) 评论(0) 推荐(0) 编辑
摘要: package com.zetyun.streaming.flink;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple;import org.ap 阅读全文
posted @ 2018-04-24 15:20 java与大数据征程 阅读(6048) 评论(0) 推荐(0) 编辑
摘要: package com.zetyun.test;import java.util.Random;public class Top100 { public static int[] getTop100(int[] inputArray) { int maxValue = Integer.MIN_VAL 阅读全文
posted @ 2018-04-24 14:56 java与大数据征程 阅读(1511) 评论(0) 推荐(0) 编辑
摘要: 1. Hive基本概念 1.1 Hive简介 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.2 为什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapRe 阅读全文
posted @ 2017-12-01 17:56 java与大数据征程 阅读(6574) 评论(0) 推荐(0) 编辑
摘要: 3.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 3.2 工作机制 将导入或导出命令 阅读全文
posted @ 2017-12-01 17:33 java与大数据征程 阅读(785) 评论(0) 推荐(0) 编辑
摘要: 2.1 概述 2.1.1为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 l 各任务单元之间存在时间先后及前后依赖关系 l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 阅读全文
posted @ 2017-12-01 17:30 java与大数据征程 阅读(1489) 评论(0) 推荐(0) 编辑
摘要: 前言 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 1. 日志采集框架Flume 1.1 Flume介绍 1.1.1 概 阅读全文
posted @ 2017-12-01 17:26 java与大数据征程 阅读(6208) 评论(0) 推荐(0) 编辑
摘要: 1.2.1 结构 一个完整的mapreduce程序在分布式运行时有三类实例进程: 1、MRAppMaster:负责整个程序的过程调度及状态协调 2、mapTask:负责map阶段的整个数据处理流程 3、ReduceTask:负责reduce阶段的整个数据处理流程 1.2.2 MR程序运行流程 1.2 阅读全文
posted @ 2017-10-20 10:01 java与大数据征程 阅读(1274) 评论(0) 推荐(0) 编辑