飞鸟各投林

导航

2016年4月9日 #

Hbase 学习笔记5----hbase region, store, storefile和列簇的关系

摘要: The HRegionServer opens the region and creates a corresponding HRegion object. When the HRegion is opened it sets up a Store instance for each HColumn 阅读全文

posted @ 2016-04-09 21:00 飞鸟各投林 阅读(418) 评论(0) 推荐(0) 编辑

Hbase 学习笔记4----原理

摘要: MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中? Mapper类:包括一个内部类(Context)和四个方法(setup,map,cleanup,run); setup,cleanup用于管理Mapper生命周期中的资源。setup - 阅读全文

posted @ 2016-04-09 20:50 飞鸟各投林 阅读(2185) 评论(0) 推荐(0) 编辑

Hbase 学习笔记3----操作以及维护

摘要: 一,基本命令: 建表:create 'table','t1','t2' 也可以建表时加coulmn的属性如:create 'table',{NAME => 't1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', 阅读全文

posted @ 2016-04-09 20:39 飞鸟各投林 阅读(1060) 评论(0) 推荐(0) 编辑

Hbase 学习笔记2----概念

摘要: 说在前面,本文部分内容来源于社区官网经过适度翻译,部分根据经验总结,部分是抄袭网络博文,(不一一列举引用,在此致歉)一并列在一起,本文的目的,希望能总结出一些有用的,应该注意到的东西,基本思路是先提出一个话题,在此话题内,把相关联的东西加进去,而不是单独分出章节单独介绍,虽然条理性欠差, 但有利于后 阅读全文

posted @ 2016-04-09 20:32 飞鸟各投林 阅读(253) 评论(0) 推荐(0) 编辑

Hbase 学习笔记1----shell

摘要: Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。 下面的内容基于我们已经安装好had 阅读全文

posted @ 2016-04-09 20:13 飞鸟各投林 阅读(231) 评论(0) 推荐(0) 编辑

Flume日志收集 总结

摘要: Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 (1) 可靠性 end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如 阅读全文

posted @ 2016-04-09 19:51 飞鸟各投林 阅读(3128) 评论(0) 推荐(0) 编辑

Hadoop应用开发实战案例 第2周 Web日志分析项目 张丹

摘要: 课程内容 本文链接: 张丹博客 http://www.fens.me 用Maven构建Hadoop项目 http://blog.fens.me/hadoop-maven-eclipse/程序源代码下载:https://github.com/bsspirit/maven_hadoop_template 阅读全文

posted @ 2016-04-09 19:19 飞鸟各投林 阅读(1912) 评论(2) 推荐(1) 编辑

2016.4.9-关于“放生”反而促进“捕猎”的思考

摘要: 今天下午在东一食堂吃饭的时候,偶尔看到央视的新闻报道,引起了自己的反思。关于因为大家的善心之举,所以部分人会选择放生的的方式表达自己的善心,但有时候好心会反而办了坏事,因为放生反而会促尽捕猎的产业链加大捕猎量,使更多的鸟反而被捕猎,这些被捕猎的鸟在放生的时候反而可能会因为之前的群居生活造成一些疾病, 阅读全文

posted @ 2016-04-09 18:15 飞鸟各投林 阅读(278) 评论(0) 推荐(0) 编辑

Hadoop应用开发实战案例 第1周 基本介绍

摘要: 数据金字塔与角色 数据分析 使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果 数据挖掘 数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联数据挖掘思想来源:假设检验,模式识别,人工智能,机 阅读全文

posted @ 2016-04-09 17:53 飞鸟各投林 阅读(559) 评论(0) 推荐(0) 编辑

2016年4月8日 #

淘宝分布式数据处理实践

摘要: 淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,此集群规模为: 1.总容量为9.3PB,利用率77.09%。 2.共有1100台机器。 3.Master:8CPU,48GB内存,SAS Raid。 4.Slave节点异 阅读全文

posted @ 2016-04-08 22:00 飞鸟各投林 阅读(279) 评论(0) 推荐(0) 编辑

Hadoop的分布式架构改进与应用

摘要: 1. 背景介绍 谈到分布式系统,就不得不提到Google的三驾马车:GFS[1],MapReduce[2]和BigTable[3]。 虽然Google没有开源这三个技术的实现源码,但是基于这三篇开源文档, Nutch项目子项目之一的Yahoo资助的Hadoop分别实现了三个强有力的开源产品:HDFS 阅读全文

posted @ 2016-04-08 21:52 飞鸟各投林 阅读(335) 评论(0) 推荐(0) 编辑

Hadoop十年解读与发展预测

摘要: 编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变 阅读全文

posted @ 2016-04-08 18:58 飞鸟各投林 阅读(629) 评论(0) 推荐(0) 编辑

吴超老师课程--Flume的安装和介绍

摘要: 常用的分布式日志收集系统 一:flume概述参考官方网址:http://flume.apache.org/documentation.htmlflume是一个分布式的数据收集系统,具有高可靠、高可用、事务管理、失败重启等功能。数据处理速度快,完全可以用于生产环境。flume的核心是agent。age 阅读全文

posted @ 2016-04-08 14:12 飞鸟各投林 阅读(300) 评论(0) 推荐(0) 编辑

吴超老师课程--Sqoop的安装和介绍

摘要: SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 一:安装步骤1.解压、设置环境变量,略2.把mysql.............ja 阅读全文

posted @ 2016-04-08 13:42 飞鸟各投林 阅读(163) 评论(0) 推荐(0) 编辑

吴超老师课程--Hive的执行语句

摘要: 为什么选择Hive? (1)基于Hadoop的大数据的计算/扩展能力(2)支持SQL like查询语言(3)统一的元数据管理(4)简单编程 一:Hive的数据类型(1)基本数据类型tinyint/smallint/int/bigintfloat/doublebooleanstring(2)复杂数据类 阅读全文

posted @ 2016-04-08 01:03 飞鸟各投林 阅读(298) 评论(0) 推荐(0) 编辑

吴超老师课程--Hive的介绍和安装

摘要: 1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的 阅读全文

posted @ 2016-04-08 01:00 飞鸟各投林 阅读(230) 评论(0) 推荐(0) 编辑

2016年4月7日 #

吴超老师课程--Pig的介绍和安装

摘要: 1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。一步一步来的,跟SQL不一样,SQL一步就得到答案,3.Pig基本数据 阅读全文

posted @ 2016-04-07 23:47 飞鸟各投林 阅读(312) 评论(0) 推荐(0) 编辑

吴超老师课程--HBASE的查询手机项目

摘要: 查询1.按RowKey查询2.按手机号码查询3.按手机号码的区域查询 阅读全文

posted @ 2016-04-07 22:47 飞鸟各投林 阅读(168) 评论(0) 推荐(0) 编辑

吴超老师课程--HBASE的Java_API

摘要: public static void main(String[] args) throws IOException { String tableName="hbase_tb"; String columnFamily="cf"; HBaseTestCase.create(tableName, columnFamily); HBaseTestCase.... 阅读全文

posted @ 2016-04-07 22:43 飞鸟各投林 阅读(225) 评论(0) 推荐(0) 编辑

吴超老师课程--HBASE的集群安装

摘要: 1.hbase的机群搭建过程(在原来的hadoop上的hbase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop,从节点(region server)是hadoop1和hadoop21.2 修改hadoop上的hbase的几个文件 (1)修改hbase-env.sh的最 阅读全文

posted @ 2016-04-07 22:24 飞鸟各投林 阅读(203) 评论(0) 推荐(0) 编辑