Charlist00 - 博客园

分布式集群中节点的动态添加与下架

摘要：动态添加节点在实际生产应用中，很多时候因为现有集群的性能问题需要增加服务器节点以提高整体性能（一般是增加从节点，在Hadoop2.x之后解决了主节点的单点问题，可以增加主节点以保持HA高可用性），这就涉及到动态添加节点的问题。还好，Hadoop早就提供了很好的解决方法，我们只需要如下几步就可以轻松地添加一个节点：（1）准备工作：配置新节点的各种环境主要包括：设置IP地址、主机名、绑定I... 阅读全文

posted @ 2017-07-05 17:01 Charlist00 阅读(860) 评论(0) 推荐(0) 编辑

Hadoop数据收集与入库系统Flume与Sqoop

摘要： Hadoop提供了一个中央化的存储系统，其有利于进行集中式的数据分析与数据共享。 Hadoop对存储格式没有要求。可以存储用户访问日志、产品信息以及网页数据等数据。常见的两种数据来源。一种是分散的数据源：机器产生的数据、用户访问日志以及用户购买日志。另一种是传统系统中的数据：传统关系型数据库（MySQL、Oracle）、磁盘阵列以及磁带。 Flume由三部分构成。Mas... 阅读全文

posted @ 2017-07-05 16:58 Charlist00 阅读(647) 评论(0) 推荐(0) 编辑

hadoop NameNode HA

摘要：在 Hadoop 的整个生态系统中，HDFS NameNode 处于核心地位，NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性。本文尝试从内部实现的角度对 NameNode 的高可用机制进行详细的分析，主要包括 NameNode 的主备切换实现分析和 NameNode 的共享存储实现分析。文章的最后在结合作者自身实践的基础上，列举了一些在高可用运维过程中需要注意的事项。程 ... 阅读全文

posted @ 2017-07-05 16:58 Charlist00 阅读(402) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—20.网站日志分析项目案例

摘要： 1.1 项目来源本次要实践的数据日志来源于国内某技术学习论坛，该论坛由某培训机构主办，汇聚了众多技术学习者，每天都有人发帖、回帖，如图1所示。图1 项目来源网站-技术学习论坛本次实践的目的就在于通过对该技术论坛的apache common日志进行分析，计算该论坛的一些关键指标，供运营者进行决策时参考。PS：开发该系统的目的是为了获取一些业务相关的指标，这些指标在第三方工具中无法获得的；1.... 阅读全文

posted @ 2017-07-05 16:57 Charlist00 阅读(461) 评论(0) 推荐(0) 编辑

Hadoop常见重要命令行操作及命令作用

摘要：关于Hadoop[root@master ~]# hadoop --help Usage: hadoop [--config confdir] COMMANDwhere COMMAND is one of: fs run a generic filesystem user client version print the ver... 阅读全文

posted @ 2017-07-05 16:54 Charlist00 阅读(3128) 评论(0) 推荐(0) 编辑

HDFS之Qurom Journal Manager（QJM）实现机制分析

摘要：前言1.1背景自从hadoop2版本开始，社区引入了NameNode高可用方案。NameNode主从节点间需要同步操作日志来达到主从节点元数据一致。最初业界均通过NFS来实现日志同步，大家之所以选择NFS，一方面因为可以很方便地实现数据共享，另外一方面因为NFS已经发展20多年，已经相对稳定成熟。虽然如此，NFS也有缺点不能满足HDFS的在线存储业务：网络单点及其存储节点单点。业界提供了数... 阅读全文

posted @ 2017-07-05 16:48 Charlist00 阅读(1236) 评论(0) 推荐(0) 编辑

hive内部表与外部表区别详细介绍

摘要：问题导读：1.创建内部表与外部表的区别是什么？2.external关键字的作用是什么？3.外部表与内部表的区别是什么？4.删除表的时候，内部表与外部表有什么区别？5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的？6.磁盘，hdfs,hive表他们之间的过程是什么样子的？好了，进入正题。今天我们要探讨... 阅读全文

posted @ 2017-07-05 16:44 Charlist00 阅读(3032) 评论(0) 推荐(0) 编辑

从MySQL到Hive，数据迁移就这么简单

摘要：使用Sqoop能够极大简化MySQL数据迁移至Hive之流程，并降低Hadoop处理分析任务时的难度。先决条件:安装并运行有Sqoop与Hive的Hadoop环境。为了加快处理速度，我们还将使用Cloudera Quickstart VM(要求至少4 GB内存)，不过大家也可以使用Hortonworks Data Platform(至少要求8 GB内存)。由于我的笔记本电脑只有8 GB内存，因此我... 阅读全文

posted @ 2017-07-05 16:43 Charlist00 阅读(9313) 评论(0) 推荐(0) 编辑

Hive 安装配置

摘要： Hive 运行模式与 Hadoop 类似，Hive 也有 3 种运行模式：1. 内嵌模式将元数据保存在本地内嵌的 Derby 数据库中，这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显，因为一个内嵌的 Derby 数据库每次只能访问一个数据文件，这也就意味着它不支持多会话连接。2. 本地模式这种模式是将元数据保存在本地独立的数据库中（一般是 MySQL），这用就可以支持多会话和多用户连... 阅读全文

posted @ 2017-07-05 16:42 Charlist00 阅读(283) 评论(0) 推荐(0) 编辑

Hive数据导入/导出

摘要： 1.1 导入/导出规则EXPORT 命令导出数据表或分区，与元数据一起输出到指定位置。又可以从这个输出位置移动到不同的Hadoop 或Hive 实例中，并且使用IMPORT 命令导入。当导出一个分区表时，原始数据可能位于不同的HDFS位置，同时还支持导出/导入分区的子集。导出的元数据存储在目标目录中，数据文件则存储在子目录中。EXPORT 和IMPORT 命令独立于所用的数据源和目标元数据数据管理... 阅读全文

posted @ 2017-07-05 16:39 Charlist00 阅读(389) 评论(0) 推荐(0) 编辑

Charlist