随笔分类 - 云计算-大数据
摘要:Flume介绍一 flume基本介绍Apache flume是一个分布式的、可靠的和可用的用来高效收集、同济和移动大量数据从众多不同sources到一个集中的数据存储库的系统。Flume event:flume事件的定义为:一组具有字节有效负载和可选择的字符串属性集的数据流。Flume agent:flume代理是一个通过事件流从外部资源流向下一个目的地(hop)管理组件的JVM进程。Flume source:接收从外部资源(如web server)传送过来的事件转变成了flume的source。外部资源通过发送让目标flume source可以识别的特定格式的事件给flume。例如,Avro
阅读全文
摘要:在启动hadoop过程中,出现如下错误:192.168.10.100: Invalid maximum heap size: -Xmx0m192.168.10.100: Could not create the Java virtual machine.192.168.10.100: jobtracker 已死,但 pid 文件仍存 此时查看jobtracker的日志,1 [root@ccloud100 manager]# vim /var/log/hadoop/hadoop-hadoop-jobtracker-ccloud100.out2 --Invalid maximum heap ...
阅读全文
摘要:一 准备 hadop版本:1.0.3,DataNode所在的包:org.apache.hadoop.hdfs.server.datanode 学习方法:整理datanode类重要的方法、属性并理解,参考相关博客分析,最终理解datanode功能,再深入研究具体代码。 时间:2013-01-22 -- 2013-01-28二 DataNode功能描述 DataNode是一个为分布式文件系统的调用存储数据块集的类。简单的调用就能启动一个或很多个数据节点。每个数据节点通常和一单个主节点通信,同时它也随时和客户端、其他数据节点保持通信。 数据节点存储着一系列数据块,它允许客户端去读这些数据块...
阅读全文
摘要:一 准备 hadop版本:1.0.3 学习方法:在学习datanode类过程中,发现它引用DataXceiverServer这个类,同时配合DataNode的理解,学习DataXceiverServer。 时间:2013-01-27二 DataXceiverServer功能描述 DataXceiverServer类是DataNode的辅助类,它最主要是用来实现客户端或其他数据节点与当前节点通信,并负责接收/发送数据块。这个类的创建是为了监听来自客户端或其他数据节点的请求。 它的实现通信的方法不是用hadoop IPC,而是用jdk本身就有的ServerSocket。三 DataXcei...
阅读全文
摘要:Cloudera Manager的CDH4主机修改和服务重装 前段时间安装好了CDH4.1后,运行了一段时间,后来,把主机IP地址改掉了,但是发现服务都启动不了,怎么办呢?想到的解决方式如下:把主机IP地址改回来CDH4.1上的IP地址改成和主机IP地址一样。 如下图,是我安装的CDH4.1的主机情况。 第一种方法改回主机IP地址后,重启Cloudera相关服务后,能正常运行。当我试第二种方法却发现,没地方改IP地址,因为,这台机器是Cloudera Manager的管理节点,无法直接修改IP地址。既然无法直接修改IP地址,那么只能重装,把现有的主机删掉,然后重新把所有服务装到主机目前的...
阅读全文
摘要:Cloudera Manager和CDH4.1的安装 刚开始安装时,觉得是各种麻烦。现在反思以下,觉得这个过程也不是太麻烦。下面我就把我在整个安装过程中,叙述如下,如果整个过程理解有错或不到位的地方,欢迎咱们互相交流,共同进步。Cloudera Manager的安装需要先修改机器的三个配置:关闭防火墙:service iptables stop;关闭selinux:setenforce 0或修改/etc/selinux/config:SELINUX=disabled;配置代理:在/etc/yum.conf加入如下内容:http_proxy=http://server:port。最好在/etc/
阅读全文