duan2 - 博客园

日志采集框架Flume

摘要：概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求，通过对flume的简单配置即可实现 Flume针对特殊阅读全文

posted @ 2017-09-26 22:19 duan2 阅读(523) 评论(0) 推荐(0)

hive函数

摘要：内置函数测试各种内置函数的快捷方法： 1、创建一个dual表 create table dual(id string); 2、load一个文件（一行，一个空格）到dual表 3、select substr('angelababy',2,3) from dual; Hive自定义函数和Transfo 阅读全文

posted @ 2017-09-25 22:12 duan2 阅读(185) 评论(0) 推荐(0)

数据结构导论

摘要：什么是数据结构概括的说，数据结构是一门讨论“描述现实世界实体的的数学模型（非数值计算）及其上的操作在计算机中如何表示和实现的”学科基本概念和术语数据：是对信息的一种符号表示。在计算机科学中指所有能输入到计算机中被计算机程序处理的符号的总称数据元素：是数据的基本单位。在程序中通常作为一个整体进阅读全文

posted @ 2017-09-23 08:31 duan2 阅读(641) 评论(0) 推荐(0)

1.1线性表的逻辑结构

摘要：线性结构的基本特征线性结构是一个数据元素有序集线性表的定义线性表是一种线性结构，在一个线性表中数据元素的类型是相同的，或者说线性表是由同一类型的数据元素构成的线性结构，定义如下：线性表是具有相同数据类型的n(n≥0)个数据元素的有限序列，通常记为：(a 1 ，a 2 ，… a i-1 ，a 阅读全文

posted @ 2017-09-23 07:32 duan2 阅读(1932) 评论(0) 推荐(0)

Hive

摘要： Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 1.1.1 什么使用Hive 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive 操作接口采用类S 阅读全文

posted @ 2017-09-20 21:04 duan2 阅读(239) 评论(0) 推荐(0)

《JAVA与模式》之建造模式

摘要：在阎宏博士的《JAVA与模式》一书中开头是这样描述建造（Builder）模式的：建造模式是对象的创建模式。建造模式可以将一个产品的内部表象（internal representation）与产品的生产过程分割开来，从而可以使一个建造过程生成具有不同的内部表象的产品对象。产品的内部表象一个产品常阅读全文

posted @ 2017-09-20 15:03 duan2 阅读(140) 评论(0) 推荐(0)

《JAVA与模式》之单例模式

摘要：在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。饿汉式单例类面的例子阅读全文

posted @ 2017-09-20 13:58 duan2 阅读(118) 评论(0) 推荐(0)

Hadoop的HA机制

摘要：前言：正式引入HA机制是从hadoop2.0开始，之前的版本中没有HA机制 1. HA的运作机制（1）hadoop-HA集群运作机制介绍所谓HA，即高可用（7*24小时不中断服务）实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN 阅读全文

posted @ 2017-09-19 21:47 duan2 阅读(457) 评论(0) 推荐(0)

自定义inputformat和outputformat

摘要： 1. 自定义inputFormat 1.1 需求无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案 1.2 分析小文件的优化无非以下几种方式： 1、在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS 2、在阅读全文

posted @ 2017-09-18 20:48 duan2 阅读(709) 评论(0) 推荐(0)

MAPREDUCE的实战案例

摘要： reduce端join算法实现 1、需求：订单数据表t_order： id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 商品信息表t_product id pname categ 阅读全文

posted @ 2017-09-17 21:49 duan2 阅读(1058) 评论(0) 推荐(0)

导航

2017年9月26日

2017年9月25日

2017年9月23日

2017年9月20日

2017年9月19日

2017年9月18日

2017年9月17日