大数据Hadoop生态圈 - 随笔分类 - mumuxinfei

Hive自定义函数的学习笔记(1)

摘要：前言: hive本身提供了丰富的函数集, 有普通函数(求平方sqrt), 聚合函数(求和sum), 以及表生成函数(explode, json_tuple)等等. 但不是所有的业务需求都能涉及和覆盖到, 因此hive提供了自定义函数的接口, 方便用户扩展. 自己好像很久没接触hadoop了, 也很久阅读全文

posted @ 2016-10-08 17:28 mumuxinfei 阅读(7303) 评论(0) 推荐(0) 编辑

Map/Reduce的类体系架构

摘要：Map/Reduce的类体系架构Map/Reduce案例解析: 先以简单的WordCount例程, 来讲解如何去描述Map/Reduce任务.public static void main(String[] args) throws Exception { // *) 创建Configurati... 阅读全文

posted @ 2014-08-27 20:03 mumuxinfei 阅读(446) 评论(0) 推荐(0) 编辑

Map/Reduce个人实战--生成数据测试集

摘要：背景: 在大数据领域, 由于各方面的原因. 有时需要自己来生成测试数据集, 由于测试数据集较大, 因此采用Map/Reduce的方式去生成. 在这小编(mumuxinfei)结合自身的一些实战经历, 具体阐述下生成测试数据集的Map/Reduce程序该如何写?场景构造: 假设某移动电信行业的... 阅读全文

posted @ 2014-08-27 20:03 mumuxinfei 阅读(1573) 评论(0) 推荐(0) 编辑

HBase 实战(2)--时间序列检索和面检索的应用场景实战

摘要：前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇主要讲述面向时间序列/面检索的应用场景时, 如何利用HBase的特性去处理和优化. 构造应用场景某气象局对各个站点... 阅读全文

posted @ 2014-07-26 14:54 mumuxinfei 阅读(2899) 评论(0) 推荐(1) 编辑

Kafka实战系列--Kafka API使用体验

摘要：前言: kafka是linkedin开源的消息队列, 淘宝的metaq就是基于kafka而研发. 而消息队列作为一个分布式组件, 在服务解耦/异步化, 扮演非常重要的角色. 本系列主要研究kafka的思想和使用, 本文主要讲解kafka的一些基本概念和api的使用. *) 准备工作1) 配置ma... 阅读全文

posted @ 2014-07-22 16:00 mumuxinfei 阅读(6306) 评论(0) 推荐(0) 编辑

Kafka实战系列--Kafka的安装/配置

摘要：*) 安装和测试cd /path/to/server#) 下载kafka二进制包wget http://apache.fayea.com/apache-mirror/kafka/0.8.1.1/kafka_2.9.2-0.8.1.1.tgz#) 解压缩kafka包tar -zxvf kafka_2.... 阅读全文

posted @ 2014-07-22 10:22 mumuxinfei 阅读(1209) 评论(0) 推荐(0) 编辑

Spark 个人实战系列(2)--Spark 服务脚本分析

摘要：前言: spark最近非常的火热, 本文不讲spark原理, 而是研究spark集群搭建和服务的脚本是如何编写的, 管中窥豹, 希望从运行脚本的角度去理解spark集群. 研究的spark为1.0.1版. spark集群采用standalone模式搭建, 其基础架构为master-slave(w... 阅读全文

posted @ 2014-07-17 16:20 mumuxinfei 阅读(1515) 评论(0) 推荐(0) 编辑

Spark 个人实战系列(1)--Spark 集群安装

摘要：前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析.spark官网: http://spark.apache.org/downloads.html*)安装... 阅读全文

posted @ 2014-07-16 14:46 mumuxinfei 阅读(732) 评论(0) 推荐(0) 编辑

HBase 实战(1)--HBase的数据导入方式

摘要：前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Client API, Bulkload, 以及Hive Over ... 阅读全文

posted @ 2014-07-14 13:02 mumuxinfei 阅读(9515) 评论(3) 推荐(4) 编辑

Flume 实战(2)--Flume-ng-sdk源码分析

摘要：具体参考: 官方用户手册和开发指南http://flume.apache.org/FlumeDeveloperGuide.html*) 定位和简单例子1). Flume-ng-sdk是用于编写往flume agent发送数据的client sdk2). 简单示例RpcClient client = ... 阅读全文

posted @ 2014-07-09 11:36 mumuxinfei 阅读(1896) 评论(0) 推荐(2) 编辑

Flume 实战(1) -- 初体验

摘要：前言: Flume-ng是数据收集/聚合/传输的组件, Flume-ng抛弃了Flume OG原本繁重的zookeeper和Master, Collector, 其整体的架构更加的简洁和明了. 其基础组件就Agent进程, 内部又可以细分为Source, Channel, Sink三个组件, S... 阅读全文

posted @ 2014-07-03 15:34 mumuxinfei 阅读(3013) 评论(0) 推荐(3) 编辑

Hive 实战(2)--hive分区分桶实战

摘要：前言: 互联网应用, 当Mysql单机遇到性能瓶颈时, 往往采用的优化策略是分库分表. 由于互联网应用普遍的弱事务性, 这种优化效果非常的显著.而Hive作为数据仓库, 当数据量达到一定数量时, 查询性能会有所下降, 那如何利用数据的特点进行优化? 分区分桶作为Hive的优化的一个有力武器.*)... 阅读全文

posted @ 2014-07-03 11:22 mumuxinfei 阅读(16442) 评论(0) 推荐(2) 编辑

Hive 实战(1)--hive数据导入/导出基础

摘要：前沿: Hive也采用类SQL的语法, 但其作为数据仓库, 与面向OLTP的传统关系型数据库(Mysql/Oracle)有着天然的差别. 它用于离线的数据计算分析, 而不追求高并发/低延时的应用场景. 最显著的特别是, Hive的数据是Schema On Read, 对数据的写入非常的自由和松散,... 阅读全文

posted @ 2014-07-02 16:14 mumuxinfei 阅读(1226) 评论(0) 推荐(1) 编辑

Sqoop的使用

摘要：Sqoop官网:http://sqoop.apache.org/*) Sqoop介绍Sqoop用来在Hadoop和关系数据库中传递数据。通过sqoop，我们可以方便的将数据从关系数据库导入到HDFS，或者将数据从HDFS导出到关系数据库。参考链接:http://blog.csdn.net/yfkis... 阅读全文

posted @ 2014-06-25 18:28 mumuxinfei 阅读(1477) 评论(0) 推荐(1) 编辑

Hive cli源码阅读和梳理

摘要：对Cli的重新认识*). hive cli有两种模式, 本地模式: 采用持有的driver对象来处理, 远程模式: 通过连接HiveServer来实现, 由此可见之前的架构图中的描述还是模糊且带有误导性*). 支持singal的处理支持, 比如对ctrl+c中断, 需要两次才完全退出交互*). 交互... 阅读全文

posted @ 2014-04-30 17:45 mumuxinfei 阅读(2202) 评论(1) 推荐(0) 编辑

hive-jdbc/odbc的解读和看法

摘要：当前的项目中, 涉及到了hive-jdbc/odbc这块, 因此把这几天所调研的资料作一份总结.本文讲解hive-jdbc/hive-odbc的实现, 以期对jdbc/odbc规范和实现有个较深入的理解和看法.在具体讲述hive-jdbc之前,首先讲解一下hive的整体架构*) hive的整体架构 ... 阅读全文

posted @ 2014-04-25 17:09 mumuxinfei 阅读(3407) 评论(1) 推荐(1) 编辑

安装CDH4 (Cloudera Distribution Hadoop)步骤

摘要：安装流程机器和系统3台服务器，安装centos 6.4 64bit系统，内存8G，磁盘60G，cpu单核已配置好静态ip，并配置好/etc/hosts下载cdh4版本https://www.cloudera.com/content/support/en/downloads.html点击下载cdh4版本，下载cloudera-manager-installer.bin赋予执行权限chmodu+x cloudera-manager-installer.bin执行安装命令./cloudera-manager-installer.bin若遇到如下问题切换到 permissive模式/usr/sbin/ 阅读全文

posted @ 2014-03-26 12:01 mumuxinfei 阅读(794) 评论(0) 推荐(0) 编辑

mumuxinfei

随笔分类 - 大数据Hadoop生态圈

Hive自定义函数的学习笔记(1)

Map/Reduce的类体系架构

Map/Reduce个人实战--生成数据测试集

HBase 实战(2)--时间序列检索和面检索的应用场景实战

Kafka实战系列--Kafka API使用体验

Kafka实战系列--Kafka的安装/配置

Spark 个人实战系列(2)--Spark 服务脚本分析

Spark 个人实战系列(1)--Spark 集群安装

HBase 实战(1)--HBase的数据导入方式

Flume 实战(2)--Flume-ng-sdk源码分析

Flume 实战(1) -- 初体验

Hive 实战(2)--hive分区分桶实战

Hive 实战(1)--hive数据导入/导出基础

Sqoop的使用

Hive cli源码阅读和梳理

hive-jdbc/odbc的解读和看法

安装CDH4 (Cloudera Distribution Hadoop)步骤

公告

导航

统计

搜索

常用链接

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论