随笔分类 - weekend110(Hadoop、MapReduce、Zookeeper、Hive、HBase、flume、sqoop、kafka)
day1 Hadoop原理介绍和搭建分布式环境
day2 HDFS体系结构及shell、java操作方式
day3 MapReduce体系结构及各种算法(1)
day4 MapReduce体系结构及各种算法(2)
day5 Zookeeper操作、Hadoop集群搭建、sqoop
day6 HBase体系结构及基本操作、flume、pig
day7 Hive体系结构及基本操作和最后项目
摘要:本博文的主要内容有 .kafka整合storm .storm-kafka工程 .storm + kafka的具体应用场景有哪些? 要想kafka整合storm,则必须要把这个storm-kafka-0.9.2-incubating.jar,放到工程里去。 无非,就是storm要去拿kafka里的东西
阅读全文
摘要:本博文的主要内容有 kafka的单机模式部署 kafka的分布式模式部署 生产者java客户端编程 消费者java客户端编程 运行kafka ,需要依赖 zookeeper,你可以使用已有的 zookeeper 集群或者利用 kafka自带的zookeeper。 单机模式,用的是kafka自带的zo
阅读全文
摘要:本博文的主要内容有 .kafka的官网介绍 http://kafka.apache.org/ 来,用官网上的教程,快速入门。 http://kafka.apache.org/documentation kafka的官网文档教程。 The Producer API allows an applicat
阅读全文
摘要:本博文的主要内容有 .storm单机模式,打包,放到storm集群 .Storm的并发机制图 .Storm的相关概念 .附PPT 打包,放到storm集群去。我这里,是单机模式下的storm。 weekend110-storm -> Export -> JAR file -> 当然,这边,肯定是,准
阅读全文
摘要:本博文的主要内容有 .Storm的单机模式安装 .Storm的分布式安装(3节点) .No space left on device .storm工程的eclipse的java编写 http://storm.apache.org/ 分布式的一个计算系统,但是跟mr不一样,就是实时的,实时的跟Mr离线
阅读全文
摘要:(2015年1月31日) 课程目录 01-storm基本概念 02-storm编程规范及demo编写 03-storm的topology提交执行 04-kafka介绍 05-kafka集群部署及客户端编程 06-kafka消费者java客户端编程 07-kafka整合storm
阅读全文
摘要:本博文的主要内容有 .HBase的单机模式(1节点)安装 .HBase的单机模式(1节点)的启动 .HBase的伪分布模式(1节点)安装 .HBase的伪分布模式(1节点)的启动 .HBase的分布模式(3、5节点)安装 .HBase的分布模式(3、5节点)的启动 见博客: HBase HA的分布式
阅读全文
摘要:参考 《Hadoop大数据分析与挖掘实战》的在线电子书阅读 http://yuedu.baidu.com/ebook/d128cf8e33687e21ae45a935?pn=1&click_type=10010002 Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的
阅读全文
摘要:本博文的主要内容有 .hbase读取数据过程 .HBase表结构 .附带PPT http://hbase.apache.org/ 读写的时候,就需要用hbase了,换句话说,就是读写的时候。需要数据库。 在哪些领域,需要数据库? 只要做大量的数据存储,就需要用到数据库。 数据库比文件系统,提供了更好
阅读全文
摘要:本博文的主要内容如下: .hive的详细官方手册 .hive支持的数据类型 .Hive Shell .Hive工程所需依赖的jar包 .hive自定义函数 .分桶4 .附PPT hive的详细官方手册 http://hive.apache.org/ https://cwiki.apache.org/
阅读全文
摘要:本博文的主要内容有: .hive的常用语法 .内部表 .外部表 .内部表,被drop掉,会发生什么? .外部表,被drop掉,会发生什么? .内部表和外部表的,保存的路径在哪? .用于创建一些临时表存储中间结果 .用于向临时表中追加中间结果数据 .分区表(分为,分区内部表和分区外部表) .hive的
阅读全文
摘要:本博文的主要内容是: .复习HA相关 .MySQL数据库 .先在MySQL数据库中建立hive数据库 .hive的配置 以下是Apache Hadoop HA的总结。分为hdfs HA和yarn HA。 以上,是参考《Hadoop海量数据处理 技术详解与项目实战》 强烈建议,先看 Hive的JDBC
阅读全文
摘要:(2015年1月25日) 课程目录 01-复习ha相关 02-hive的元数据库mysql方式安装配置 03-hive的使用 04-hive的常用语法 05-hql语法及自定义函数 06-hbase表结构 07-hbase集群架构及表存储机制 08-hbase-shell 09-hbase的java
阅读全文
摘要:weekend01、02、03、04、05、06、07的分布式集群的HA测试 1) weekend01、02的hdfs的HA测试 2) weekend03、04的yarn的HA测试 1) weekend01、02的hdfs的HA测试 首先,分布式集群都是正常的,且工作的 然后呢, 以上是,weeke
阅读全文
摘要:查看企业公认的最新稳定版本: https://archive.apache.org/dist/ Hive和HBase都很重要,当然啦,各自也有自己的替代品。 在公司里,SQL有局限,大部分时候,不需写mr程序的,用hive这个工具。 公司里的懂java开发员工不一定每个公司都有,但懂SQL开发员工很
阅读全文
摘要:现在,我们来验证分析下,zookeeper集群的可靠性 现在有weekend05、06、07 将其一个关掉, 分析,这3个zookeeper集群里,杀死了weekend06,还存活weekend05、07。 可见,还能正常工作。 分析,这3个zookeeper集群里,杀死了weekend06、07,
阅读全文
摘要:在hadoop生态圈里,很多地方都需zookeeper。 启动的时候,都是普通的server,但在启动过程中,通过一个特定的选举机制,选出一个leader。 只运行在一台服务器上,适合测试环境;Zookeeper 的启动脚本在 bin 目录下;在启动脚本之前,还有几个基本的配置项需要配置一下, ti
阅读全文
摘要:随时查看,zookeeper企业里公认的最新文档版本! https://archive.apache.org/dist/ 下面是在weekend110上的zookeeper的安装 在此之前,先进行快照备份。 在这里,为了后续的zookeeper配置需要,在/home/hadoop/下,新建data目
阅读全文
摘要:(2015年1月24日) 课程目录 01-zookeeper1 02-zookeeper2 03-NN高可用方案的要点1 04-hadoop-HA机制的配置文件 05-hadoop分布式集群HA模式部署 06-hdfs--HA测试 07-hdfs--动态增加节点和副本数量管理 08-HA的java
阅读全文
摘要:好的,现在,来weekend110的textinputformat对切片规划的源码分析, Inputformat默认是textinputformat,一通百通。 这就是今天,weekend110的textinputformat对切片规划的源码分析入口 [LocatedFileStatus{path=
阅读全文