大数据 - 文章分类 - rocky-2013

gp的那些事

该文被密码保护。

posted @ 2019-09-14 21:59 rocky-2013 阅读(2) 评论(0) 推荐(0) 编辑

摘要：作者：伍翀 Apache Flink 介绍 Apache Flink （以下简称Flink）是近年来越来越流行的一款开源大数据计算引擎，它同时支持了批处理和流处理，也能用来做一些基于事件的应用。使用官网的语句来介绍 Flink 就是 "Stateful Computations Over Strea 阅读全文

posted @ 2019-07-23 10:10 rocky-2013 阅读(222) 评论(0) 推荐(0) 编辑

sparkSQL实战详解

摘要：摘要如果要想真正的掌握sparkSQL编程，首先要对sparkSQL的整体框架以及sparkSQL到底能帮助我们解决什么问题有一个整体的认识，然后就是对各个层级关系有一个清晰的认识后，才能真正的掌握它，对于sparkSQL整体框架这一块，在前一个博客已经进行过了一些介绍，如果对这块还有疑问可以看我阅读全文

posted @ 2018-12-25 10:04 rocky-2013 阅读(17198) 评论(0) 推荐(0) 编辑

Hive 之 Java API 操作

摘要：Java 想要访问Hive，需要通过beeline的方式连接Hive，hiveserver2提供了一个新的命令行工具beeline，hiveserver2 对之前的hive做了升级，功能更加强大，它增加了权限控制，要使用beeline需要先启动hiverserver2，再使用beeline连接 1 阅读全文

posted @ 2018-10-07 15:06 rocky-2013 阅读(13957) 评论(0) 推荐(2) 编辑

Hive技术原理解析

摘要：什么是Hive？ Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。阅读全文

posted @ 2018-10-07 14:58 rocky-2013 阅读(262) 评论(0) 推荐(0) 编辑

Java API连接HBase 进行增删查改操作

摘要：(2) 创建hbase-site.xml文件配置hbase的连接信息 (3) 打开hbase服务，准备工作完成。 2. 通过configuration获取hbase连接 3 、通过java API创建表、删除表获取连接后就可以通过API操作HBase了，对表的操做是通过Admin类的方法进行操作阅读全文

posted @ 2018-10-06 22:27 rocky-2013 阅读(1020) 评论(0) 推荐(0) 编辑

深入学习HBase架构原理

摘要：HBase定义 HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用Hbase技术可在廉价PC Server上搭建大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现，与Google Bigtable 利用GFS作为其文件存储系统类似， HBase 利阅读全文

posted @ 2018-10-06 22:18 rocky-2013 阅读(127) 评论(0) 推荐(0) 编辑

MapReduce编程模型之wordcount

摘要：可以毫不夸张的说，几乎开发中绝大部分的MR程序都是基于wordcount编程模型而来，或者说用wordcount变化而来（改变的主要是业务方面的逻辑）。所以，熟练掌握wordcount编程模型，是掌握MR编程的基础。 MAPREDUCE示例编写及编程规范 1.1编程规范 1用户编写的程序分成三个部分阅读全文

posted @ 2018-10-06 16:18 rocky-2013 阅读(328) 评论(0) 推荐(0) 编辑

Hadoop 新 MapReduce 框架 Yarn 详解

摘要：Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考 Hadoop 官方简介。使用和学阅读全文

posted @ 2018-10-06 16:14 rocky-2013 阅读(94) 评论(0) 推荐(0) 编辑

Flume（一）Flume原理解析

摘要：一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核阅读全文

posted @ 2018-10-06 14:30 rocky-2013 阅读(371) 评论(0) 推荐(0) 编辑

MapReduce：详解Shuffle过程

该文被密码保护。

posted @ 2018-10-06 13:01 rocky-2013 阅读(172) 评论(0) 推荐(0) 编辑

Centos6.5 + hadoop2.6.4环境搭建

摘要：搭建Hadoop集群环境（3台机器） 1 准备环境 1.1 安装系统，并配置网络使3台机器互联互通，且SSH可直连（无需密码、保存私钥） 1.1.1 安装系统安装Centos 6.5系统安装过程略 1.1.2 配置网络设置三台机器的iP分别为 IP 主机名称 10.132.41.116 Had 阅读全文

posted @ 2018-09-02 23:02 rocky-2013 阅读(191) 评论(0) 推荐(0) 编辑

我和我的倔强

文章分类 - 大数据

公告

搜索

常用链接

我的标签

随笔档案

文章分类

最新评论