大数据 - 随笔分类 - duan2

Zookeeper

摘要：1. Zookeeper概念简介： 1. Zookeeper概念简介： Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务 A、zookeeper是为别的分布式程序服务的 B、Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务） C、Zoo 阅读全文

posted @ 2017-10-05 21:08 duan2 阅读(258) 评论(0) 推荐(0)

sqoop数据迁移

摘要：概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库工作机制将导入或导出命令翻译成mapre 阅读全文

posted @ 2017-10-01 22:59 duan2 阅读(252) 评论(0) 推荐(0)

工作流调度器azkaban

摘要：为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行例如，我们可能有这样一个需求，某个业阅读全文

posted @ 2017-10-01 16:40 duan2 阅读(828) 评论(0) 推荐(0)

hive函数

摘要：内置函数测试各种内置函数的快捷方法： 1、创建一个dual表 create table dual(id string); 2、load一个文件（一行，一个空格）到dual表 3、select substr('angelababy',2,3) from dual; Hive自定义函数和Transfo 阅读全文

posted @ 2017-09-25 22:12 duan2 阅读(181) 评论(0) 推荐(0)

Hive

摘要：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 1.1.1 什么使用Hive 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive 操作接口采用类S 阅读全文

posted @ 2017-09-20 21:04 duan2 阅读(235) 评论(0) 推荐(0)

Hadoop的HA机制

摘要：前言：正式引入HA机制是从hadoop2.0开始，之前的版本中没有HA机制 1. HA的运作机制（1）hadoop-HA集群运作机制介绍所谓HA，即高可用（7*24小时不中断服务）实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN 阅读全文

posted @ 2017-09-19 21:47 duan2 阅读(454) 评论(0) 推荐(0)

自定义inputformat和outputformat

摘要：1. 自定义inputFormat 1.1 需求无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案 1.2 分析小文件的优化无非以下几种方式： 1、在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS 2、在阅读全文

posted @ 2017-09-18 20:48 duan2 阅读(705) 评论(0) 推荐(0)

MAPREDUCE的实战案例

摘要：reduce端join算法实现 1、需求：订单数据表t_order： id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 商品信息表t_product id pname categ 阅读全文

posted @ 2017-09-17 21:49 duan2 阅读(1054) 评论(0) 推荐(0)

hadoop本地调试方法

摘要：Mapreduce 是Hadoop上一个进行分布式数据运算和统计的框架，但是每次运行程序的时候都需要将程序打包并上传的集群环境中运行，这就会让程序的调试变得十分不方便。所以在这里写下这篇博客和大家交流学习如何在本地调试Mapreduce程序。本地是windows系统，文件路径也是本地首先需要将编阅读全文

posted @ 2017-09-11 22:21 duan2 阅读(2372) 评论(0) 推荐(0)

MAPREDUCE原理篇2

摘要：mapreduce的shuffle机制概述： mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle； shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；具体来说：就是将maptask输出的处阅读全文

posted @ 2017-09-10 23:27 duan2 阅读(220) 评论(0) 推荐(0)

利用HADOOP中的jar写一个RPC

摘要：RPC调用需要服务端和客户端使用相同的协议：协议：这里协议就是接口服务端的实现类：发布服务：客户端调用RPC服务：使用的hadoop的hadoop-common-2.6.4.jar这个j包，在其他工程也可以使用阅读全文

posted @ 2017-09-10 10:44 duan2 阅读(290) 评论(0) 推荐(0)

HDFS案例

摘要：shell日志采集需求说明点击流日志每天都10T，在业务应用服务器上，需要准实时上传至数据仓库（Hadoop HDFS）上需求分析一般上传文件都是在凌晨24点操作，由于很多种类的业务数据都要在晚上进行传输，为了减轻服务器的压力，避开高峰期。如果需要伪实时的上传，则采用定时上传的方式技术分阅读全文

posted @ 2017-09-09 21:53 duan2 阅读(815) 评论(0) 推荐(0)

MAPREDUCE实践篇（2）

只有注册用户登录后才能阅读该文。

posted @ 2017-09-09 21:22 duan2 阅读(1) 评论(0) 推荐(0)

MAPREDUCE实践篇

摘要：1.编程规范（1）用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端) （2）Mapper的输入数据是KV对的形式（KV的类型可自定义）（3）Mapper的输出数据是KV对的形式（KV的类型可自定义）（4）Mapper中的业务逻辑写在map()方法阅读全文

posted @ 2017-09-09 21:05 duan2 阅读(504) 评论(0) 推荐(0)

MAPREDUCE的原理和使用

摘要：简介： Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架； Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上； 1.1为什么要MAPREDUCE （1）海量数据在阅读全文

posted @ 2017-09-09 20:58 duan2 阅读(378) 评论(0) 推荐(0)

HADOOP的API简单介绍

摘要：hadoop底层用流调用的api 本代码来自传智播客，版权归传智播客所有阅读全文

posted @ 2017-09-06 21:10 duan2 阅读(1189) 评论(0) 推荐(0)

HDFS的介绍

摘要：设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；在大数据系统中作用：为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务重点概念：文件切块，副本存放，元数据 HDSF的重要特性首先，它是一个阅读全文

posted @ 2017-09-06 21:03 duan2 阅读(883) 评论(0) 推荐(0)

HADOOP入门

摘要：本教程参考传智播客教学 1.1 什么是HADOOP 1. HADOOP是apache旗下的一套开源软件平台 2. HADOOP提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理 3. HADOOP的核心组件有 A. HDFS（分布式文件系统） B. YARN（运算资源调度阅读全文

posted @ 2017-09-06 16:17 duan2 阅读(153) 评论(0) 推荐(0)

HADOOP集群搭建

摘要：1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop.min1 ### 1.2修改IP 两种方式：第一种：通过Linux图形界面进行修改（强烈推荐）进入Li 阅读全文

posted @ 2017-09-06 15:11 duan2 阅读(121) 评论(0) 推荐(0)

导航

随笔分类 - 大数据