duan2

导航

 

2017年9月25日

摘要: 内置函数 测试各种内置函数的快捷方法: 1、创建一个dual表 create table dual(id string); 2、load一个文件(一行,一个空格)到dual表 3、select substr('angelababy',2,3) from dual; Hive自定义函数和Transfo 阅读全文
posted @ 2017-09-25 22:12 duan2 阅读(169) 评论(0) 推荐(0) 编辑
 

2017年9月23日

摘要: 什么是数据结构 概括的说,数据结构是一门讨论“描述现实世界实体的的数学模型(非数值计算)及其上的操作在计算机中如何表示和实现的”学科 基本概念和术语 数据:是对信息的一种符号表示。在计算机科学中指所有能输入到计算机中被计算机程序处理的符号的总称 数据元素:是数据的基本单位。在程序中通常作为一个整体进 阅读全文
posted @ 2017-09-23 08:31 duan2 阅读(564) 评论(0) 推荐(0) 编辑
 
摘要: 线性结构的基本特征 线性结构是一个数据元素有序集 线性表的定义 线性表是一种线性结构,在一个线性表中数据元素的类型是相同的,或者说线性表是由 同一类型的数据元素构成的线性结构,定义如下:线性表是具有相同数据类型的n(n≥0)个数据元素的有限序列,通常记为:(a 1 ,a 2 ,… a i-1 ,a 阅读全文
posted @ 2017-09-23 07:32 duan2 阅读(1876) 评论(0) 推荐(0) 编辑
 

2017年9月20日

摘要: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.1 什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive 操作接口采用类S 阅读全文
posted @ 2017-09-20 21:04 duan2 阅读(218) 评论(0) 推荐(0) 编辑
 
摘要: 在阎宏博士的《JAVA与模式》一书中开头是这样描述建造(Builder)模式的: 建造模式是对象的创建模式。建造模式可以将一个产品的内部表象(internal representation)与产品的生产过程分割开来,从而可以使一个建造过程生成具有不同的内部表象的产品对象。 产品的内部表象 一个产品常 阅读全文
posted @ 2017-09-20 15:03 duan2 阅读(123) 评论(0) 推荐(0) 编辑
 
摘要: 在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的: 作为对象的创建模式,单例模式确保某一个类只有一个实例,而且自行实例化并向整个系统提供这个实例。这个类称为单例类。 单例类只能有一个实例。 单例类必须自己创建自己的唯一实例。 单例类必须给所有其他对象提供这一实例。 饿汉式单例类 面的例子 阅读全文
posted @ 2017-09-20 13:58 duan2 阅读(100) 评论(0) 推荐(0) 编辑
 

2017年9月19日

摘要: 前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 1. HA的运作机制 (1)hadoop-HA集群运作机制介绍 所谓HA,即高可用(7*24小时不中断服务) 实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN 阅读全文
posted @ 2017-09-19 21:47 duan2 阅读(414) 评论(0) 推荐(0) 编辑
 

2017年9月18日

摘要: 1. 自定义inputFormat 1.1 需求 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析 小文件的优化无非以下几种方式: 1、 在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS 2、 在 阅读全文
posted @ 2017-09-18 20:48 duan2 阅读(686) 评论(0) 推荐(0) 编辑
 

2017年9月17日

摘要: reduce端join算法实现 1、需求: 订单数据表t_order: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 商品信息表t_product id pname categ 阅读全文
posted @ 2017-09-17 21:49 duan2 阅读(1010) 评论(0) 推荐(0) 编辑
 

2017年9月11日

摘要: Mapreduce 是Hadoop上一个进行分布式数据运算和统计的框架,但是每次运行程序的时候都需要将程序打包并上传的集群环境中运行,这就会让程序的调试变得十分不方便。所以在这里写下这篇博客和大家交流学习如何在本地调试Mapreduce程序。 本地是windows系统,文件路径也是本地 首先需要将编 阅读全文
posted @ 2017-09-11 22:21 duan2 阅读(2299) 评论(0) 推荐(0) 编辑