java与大数据征程

[置顶] 大数据架构（PB级）

摘要： 1.随着互联网快速发展，数据量的快速膨胀，我们日增3000多亿数据量，因此需要针对PB级存储、几百TB的增量数据处理架构设计 2.系统逻辑划分总图：暂不便透露 3.系统架构图： 4.大数据计算引擎我们是采用Apache Flink流式计算框架，并对其进行了一些优化，目前在生产环境，已经基本稳定运行阅读全文

posted @ 2019-08-15 11:38 java与大数据征程阅读(2567) 评论(0) 推荐(0)

[置顶] Hadoop2.7.3集群搭建

摘要： hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA 注意：apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装had 阅读全文

posted @ 2017-10-18 17:16 java与大数据征程阅读(891) 评论(0) 推荐(0)

2018年7月8日

flink Window的Timestamps/Watermarks和allowedLateness的区别

摘要： Watermartks是通过additional的时间戳来控制窗口激活的时间，allowedLateness来控制窗口的销毁时间。注：因为此特性包括官方文档在1.3～1.5版本均未做改变，所以此处使用1.5版的文档在EventTime的情况下， 1. 一条记录的事件时间来控制此条记录属于哪一个阅读全文

posted @ 2018-07-08 19:07 java与大数据征程阅读(1240) 评论(0) 推荐(0)

2018年4月24日

flink统计根据账号每30秒金额的平均值

摘要： package com.zetyun.streaming.flink;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple;import org.ap 阅读全文

posted @ 2018-04-24 15:20 java与大数据征程阅读(6099) 评论(0) 推荐(0)

位图排序:从1亿个数字中取出最大的100个

摘要： package com.zetyun.test;import java.util.Random;public class Top100 { public static int[] getTop100(int[] inputArray) { int maxValue = Integer.MIN_VAL 阅读全文

posted @ 2018-04-24 14:56 java与大数据征程阅读(1535) 评论(0) 推荐(0)

2017年12月1日

Hive详解

摘要： 1. Hive基本概念 1.1 Hive简介 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 1.1.2 为什么使用Hive 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapRe 阅读全文

posted @ 2017-12-01 17:56 java与大数据征程阅读(6704) 评论(0) 推荐(0)

sqoop数据迁移

摘要： 3.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库 3.2 工作机制将导入或导出命令阅读全文

posted @ 2017-12-01 17:33 java与大数据征程阅读(806) 评论(0) 推荐(0)

工作流调度器azkaban

摘要： 2.1 概述 2.1.1为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等 l 各任务单元之间存在时间先后及前后依赖关系 l 为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；阅读全文

posted @ 2017-12-01 17:30 java与大数据征程阅读(1523) 评论(0) 推荐(0)

日志采集框架Flume

摘要：前言在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示： 1. 日志采集框架Flume 1.1 Flume介绍 1.1.1 概阅读全文

posted @ 2017-12-01 17:26 java与大数据征程阅读(6266) 评论(0) 推荐(0)

2017年10月20日

MAPREDUCE框架结构及核心运行机制

摘要： 1.2.1 结构一个完整的mapreduce程序在分布式运行时有三类实例进程： 1、MRAppMaster：负责整个程序的过程调度及状态协调 2、mapTask：负责map阶段的整个数据处理流程 3、ReduceTask：负责reduce阶段的整个数据处理流程 1.2.2 MR程序运行流程 1.2 阅读全文

posted @ 2017-10-20 10:01 java与大数据征程阅读(1319) 评论(0) 推荐(0)

java的旅程

公告