使用shell脚本定时采集日志数据到hdfs分布式文件系统
摘要:1、首先对linux操作系统的crontab命令进行熟悉和了解: 2、在/etc目录下有一个crontab文件,查看这个文件内容如下所示: 3、使用实例: 4、crontab配置 5、uploadFile2Hdfs.v2.sh 待续......
阅读全文
posted @
2018-05-08 21:25
别先生
阅读(3057)
推荐(0) 编辑
Linux环境安装Eclipse工具开发
摘要:1、官网下载maven:https://maven.apache.org/download.cgi 2、上传到虚拟机进行解压缩操作: [hadoop@slaver1 package]$ tar -zxvf apache-maven-3.5.3-bin.tar.gz -C /home/hadoop/s
阅读全文
posted @
2018-04-17 16:14
别先生
阅读(5491)
推荐(0) 编辑
Hadoop数据分析平台项目实战(基于CDH版本集群部署与安装)
摘要:1、Hadoop的主要应用场景: a、数据分析平台。 b、推荐系统。 c、业务系统的底层存储系统。 d、业务监控系统。 2、开发环境:Linux集群(Centos64位)+Window开发模式(window10,64位操作系统)。 使用技术:hadoop,hbase,hive,flume,oozie
阅读全文
posted @
2018-04-07 17:48
别先生
阅读(3874)
推荐(0) 编辑
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
摘要:1、window操作系统的eclipse运行wordcount程序出现如下所示的错误: 暂时解决方法如下所示: Windows的唯一方法用于检查当前进程的请求,在给定的路径的访问权限,所以我们先给以能进行访问,我们自己先修改源代码,return true 时允许访问。我们下载对应hadoop源代码,
阅读全文
posted @
2018-04-06 21:56
别先生
阅读(2998)
推荐(0) 编辑
Exception in thread "main" java.lang.NullPointerException
摘要:1、在window操作系统上,使用eclipse开发工具从hdfs分布式文件系统上下载文件报空指针异常解决方法: 2、将hadoop-2.5.0-cdh5.3.6.tar.gz文件在window操作系统解压缩,配置好环境变量。 然后验证一下是否配置成功,操作如window+R,输入cmd: 然后将如
阅读全文
posted @
2018-04-06 17:38
别先生
阅读(15714)
推荐(0) 编辑
eclipse工具下hadoop环境搭建
摘要:eclipse工具下hadoop环境搭建: window10操作系统中搭建eclipse64开发系统,配置hadoop的eclipse插件,让eclipse可以查看Hdfs中的文件内容。 1、将hadoop-eclipse-plugin-2.5.2.jar文件移动到eclipse的plugins文件
阅读全文
posted @
2018-04-06 10:39
别先生
阅读(553)
推荐(0) 编辑
大数据平台网站日志分析系统
摘要:1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2)
阅读全文
posted @
2017-12-09 22:52
别先生
阅读(6635)
推荐(2) 编辑
Hadoop集群最迅速的配置免密码登陆方法
摘要:1:多台机器互相免密登陆的思路(默认你的linux操作系统已经安装好ssh): 第一步:在各自的机器上面生成密钥: 在第1台机器上生产一对钥匙: ssh-keygen -t rsa 在第2台机器上生产一对钥匙: ssh-keygen -t rsa 在第3台机器上生产一对钥匙: ssh-keygen
阅读全文
posted @
2017-12-09 16:30
别先生
阅读(1379)
推荐(0) 编辑
一脸懵逼学习Hive的元数据库Mysql方式安装配置
摘要:1:要想学习Hive必须将Hadoop启动起来,因为Hive本身没有自己的数据管理功能,全是依赖外部系统,包括分析也是依赖MapReduce; 2:七个节点跑HA集群模式的: 第一步:必须先将Zookeeper启动起来(HA里面好多组件都依赖Zookeeper): 切换目录,启动Zookeeper(
阅读全文
posted @
2017-10-20 11:08
别先生
阅读(8448)
推荐(0) 编辑
一脸懵逼学习Hdfs---动态增加节点和副本数量管理(Hdfs动态扩容)
摘要:1:按照上篇博客写的,将各个进程都启动起来: 集群规划: 主机名 IP 安装的软件 运行的进程 master 192.168.3.129 jdk、hadoop NameNode、DFSZKFailoverController(zkfc) slaver1 192.168.3.130 jdk、hadoo
阅读全文
posted @
2017-10-16 19:09
别先生
阅读(5122)
推荐(0) 编辑
一脸懵逼学习Hadoop分布式集群HA模式部署(七台机器跑集群)
摘要:1)集群规划:主机名 IP 安装的软件 运行的进程master 192.168.199.130 jdk、hadoop NameNode、DFSZKFailoverController(zkfc)slaver1 192.168.199.131 jdk、hadoop NameNode、DFSZKFail
阅读全文
posted @
2017-10-16 16:00
别先生
阅读(4929)
推荐(1) 编辑
一脸懵逼学习Hadoop-HA机制(以及HA机制的配置文件,测试)
摘要:1:能否让两个NameNode都正常影响客户端请求? 应该让两个NameNode节点在某个时间只能有一个节点正常影响客户端请求,相应请求的必须为Active状态的那一台。 2:standBy状态的节点必须能够快速无缝的切换为active状态: 意味着两个NameNode必须时刻保持元数据的一致; 3
阅读全文
posted @
2017-10-13 09:51
别先生
阅读(469)
推荐(0) 编辑
一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)
摘要:1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。 注意:HADOOP的核心组件有: 1)H
阅读全文
posted @
2017-10-09 18:49
别先生
阅读(4536)
推荐(2) 编辑
一脸懵逼学习Hadoop中的MapReduce程序中自定义分组的实现
摘要:1:首先搞好实体类对象: write 是把每个对象序列化到输出流,readFields是把输入流字节反序列化,实现WritableComparable,Java值对象的比较:一般需要重写toString(),hashCode(),equals()方法 2:流量分区处理操作的步骤: 2. 1:对流量原
阅读全文
posted @
2017-09-25 17:40
别先生
阅读(899)
推荐(0) 编辑
一脸懵逼学习Hadoop中的序列化机制——流量求和统计MapReduce的程序开发案例——流量求和统计排序
摘要:一:序列化概念 序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。Java序列化(java.io.Serializable) 二:Hadoop序列化的特点 (1):序列化格式特点: 紧凑:高效使用存
阅读全文
posted @
2017-09-20 09:45
别先生
阅读(1611)
推荐(0) 编辑
一脸懵逼学习MapReduce的原理和编程(Map局部处理,Reduce汇总)和MapReduce几种运行方式
摘要:1:MapReduce的概述: (1):MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. (2):MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。 (3):
阅读全文
posted @
2017-09-18 15:03
别先生
阅读(5584)
推荐(1) 编辑
一脸懵逼学习hadoop之HDFS的java客户端编写
摘要:1:eclipse创建一个项目,然后导入对应的jar包: 鼠标右击项目,点击properties或者alt+enter快捷键 >java build path >libraries >add library >user library >next >user libraries >new >hdfs
阅读全文
posted @
2017-09-11 18:30
别先生
阅读(536)
推荐(0) 编辑
一脸懵逼加从入门到绝望学习hadoop之Caused by: java.net.UnknownHostException: master报错
摘要:windows下开发hadoop应用程序,hadoop部署在linux环境中, 在运行调试时可能会出现无法找到主机,类似异常信息如下: java.net.UnknownHostException: unknown host: master 解决办法如下: 在C:\WINDOWS\system32\d
阅读全文
posted @
2017-09-11 14:39
别先生
阅读(1510)
推荐(0) 编辑