随笔 - 402  文章 - 1 评论 - 20 阅读 - 113万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  Hadoop

1
hadoop项目
该文被密码保护。
posted @ 2015-08-19 16:37 chamie 阅读(6) 评论(0) 推荐(0) 编辑
flume
摘要:1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类... 阅读全文
posted @ 2015-08-17 20:40 chamie 阅读(481) 评论(0) 推荐(0) 编辑
SQOOP
摘要:SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中1.安装SQOOP1.1先将SQOOP文件放到/usr/local/下1.... 阅读全文
posted @ 2015-08-17 19:22 chamie 阅读(1814) 评论(0) 推荐(0) 编辑
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
摘要:z摘自:http://www.linuxidc.com/Linux/2014-03/98978.htmhadoop生态圈Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有... 阅读全文
posted @ 2015-08-17 18:56 chamie 阅读(20811) 评论(1) 推荐(3) 编辑
Hive
摘要:1.Hive概述1.1在hadoop生态圈中属于数据仓库的角色。它能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为Map... 阅读全文
posted @ 2015-08-17 18:35 chamie 阅读(587) 评论(0) 推荐(0) 编辑
Pig
摘要:1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、... 阅读全文
posted @ 2015-08-17 15:52 chamie 阅读(347) 评论(0) 推荐(0) 编辑
HBase集群安装
摘要:1.HBase的机群搭建过程(在原来的hadoop0上的HBase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop0,从节点(region server)是hadoop1和hadoop21.2 修改hadoop0上的hbase的几个文件 (1)修改hbase-... 阅读全文
posted @ 2015-08-17 13:40 chamie 阅读(186) 评论(0) 推荐(0) 编辑
HBase的Shell命令
摘要:1、HBase提供了一个shell的终端给用户交互2、HBaseShell的DDL操作(1)先进入HBase的Shell命令行,即HBASE_HOME/bin/hbase shell …… >quit创建表: >create 'users','user_id','address','info'... 阅读全文
posted @ 2015-08-16 21:34 chamie 阅读(256) 评论(0) 推荐(0) 编辑
HBase伪分布安装
摘要:1把hbase-0.94.2-security.tar.gz复制到/usr/local2 解压缩、重命名、设置环境变量cd /usr/localtar -zxvf hbase-0.94.2-security.tar.gzmv hbase-0.94.2-security hbase修改/etc/pro... 阅读全文
posted @ 2015-08-16 21:19 chamie 阅读(311) 评论(0) 推荐(0) 编辑
HBase基础知识
摘要:1.HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理H... 阅读全文
posted @ 2015-08-16 21:09 chamie 阅读(817) 评论(0) 推荐(0) 编辑
RPC
摘要:1.RPC(在hdfs中的Java操作中用到) 1.1 RPC (remote procedure call)远程过程调用. 远程过程指的是不是同一个进程。 1.2 RPC至少有两个过程。调用方(client),被调用方(server)。 1.3 client主动发起请求,调用... 阅读全文
posted @ 2015-08-16 17:38 chamie 阅读(205) 评论(0) 推荐(0) 编辑
HDFS在Linux下的命令
摘要:1.对hdfs操作的命令格式是 1.1hadoop fs -ls 表示对hdfs下一级目录的查看 1.2 hadoop fs-lsr 表示对hdfs目录的递归查看 1.3 hadoop fs-mkdir 创建目录 1.4hadoop fs -put 从linux上传文件到... 阅读全文
posted @ 2015-08-16 17:35 chamie 阅读(7210) 评论(0) 推荐(0) 编辑
Zookeeper的安装和配置
摘要:1.ZooKeeper 1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。2.如何搭建ZooKeeper服务器集群 2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。 2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.... 阅读全文
posted @ 2015-08-16 17:23 chamie 阅读(183) 评论(0) 推荐(0) 编辑
ZooKeeper概述
摘要:1、Zookeeper概述 Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务。它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 Zookeeper的角色: zk可以用来保证数据在zk集群之间的数据的事务... 阅读全文
posted @ 2015-08-16 17:21 chamie 阅读(250) 评论(0) 推荐(0) 编辑
hadoop的安全模式
摘要:在安全模式下:不能增、删、改操作;但可以查看。查看hadoop是否i处于安全模式下: 执行命令:hadoop dfsadmin -safemode get进入hadoop的安全模式下: 执行命令:hadoop dfsadmin -safemode enter离开hadoop的安全模式: 执行命... 阅读全文
posted @ 2015-08-16 15:58 chamie 阅读(709) 评论(0) 推荐(0) 编辑
hadoop伪分布式安装
摘要:hadoop的伪分布安装:一台实体机或虚拟机的安装。环境:Windows7、VMWare、CentOS1.1 设置ip地址 说明:在CentOS中的网络的类型: 仅主机模式:虚拟机在Windows外单独建立一个网 桥接模式:虚拟机的IP和Windows的IP在同一个局域网的同一网段,并... 阅读全文
posted @ 2015-08-15 10:57 chamie 阅读(1047) 评论(0) 推荐(1) 编辑
hadoop集群安装
摘要:1hadoop分布式安装hadoop完全分布式安装:3个及以上的实体机或者虚拟机组件的机群。目标: 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode 从节点(2个,是hadoop1、hadoop2):DataNo... 阅读全文
posted @ 2015-08-15 10:52 chamie 阅读(194) 评论(0) 推荐(0) 编辑
MapReduce入门例子
摘要:计算文档中不同单词的个数。 hello you hello me步骤如下: 阅读全文
posted @ 2015-08-13 23:17 chamie 阅读(197) 评论(0) 推荐(0) 编辑
MapReduce常见算法
摘要:1、单词计数2、数据去重3、排序4、Top K(求数据中的最大值)5、选择6、投影7、分组8、多表连接9、单表关联 阅读全文
posted @ 2015-08-13 21:14 chamie 阅读(325) 评论(0) 推荐(0) 编辑
Hadoop概论
摘要:1、Hadoop核心项目:HDFS(分布式文件系统)和MapReduce(并行计算框架)2、HDFS的架构 主从结构 主节点,只有一个:namenode(接受用户操作要求;维护文件系统的目录结构;管理文件与block之间关系,block与datanode之间关系) 从节点,有很多个:d... 阅读全文
posted @ 2015-07-27 22:14 chamie 阅读(200) 评论(0) 推荐(0) 编辑

1
点击右上角即可分享
微信分享提示