返回顶部 Fork me on GitHub

05 2018 档案

摘要:一 Hadoop数据压缩 1.1 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Mer 阅读全文
posted @ 2018-05-27 22:23 Frankdeng 阅读(2827) 评论(0) 推荐(0) 编辑
摘要:一、YARN 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程 阅读全文
posted @ 2018-05-27 13:02 Frankdeng 阅读(9182) 评论(0) 推荐(0) 编辑
摘要:一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 阅读全文
posted @ 2018-05-26 19:40 Frankdeng 阅读(4827) 评论(0) 推荐(2) 编辑
摘要:NameNode 学习目标 理解 namenode 的工作机制尤其是元数据管理机制,以增强对 HDFS 工作原理的 理解,及培养 hadoop 集群运营中“性能调优”、“namenode”故障问题的分析解决能力 问题场景 1、Namenode 服务器的磁盘故障导致 namenode 宕机,如何挽救集 阅读全文
posted @ 2018-05-25 21:24 Frankdeng 阅读(2595) 评论(0) 推荐(1) 编辑
摘要:Sublime text 3 破解版是一款极其强大的代码编辑器,又是一款可以代替记事本的文本编辑器。Sublime text 3拥有着美观的界面和实用的功能,既能够完成代码的编辑又能够完成文本编辑,还有智能的拼音检查以及记忆书签,还有什么 Python API , Goto 功能等等。支持多窗口,多 阅读全文
posted @ 2018-05-20 23:21 Frankdeng 阅读(7484) 评论(0) 推荐(1) 编辑
摘要:一、概述 官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources 二、Flume Sources 描述 2.1 Avro Source 2.1.1 介绍 监听Avro端口,从Avro client streams接收event 阅读全文
posted @ 2018-05-20 00:05 Frankdeng 阅读(966) 评论(0) 推荐(0) 编辑
摘要:一 HDFS客户端环境准备 1.1 jar包准备 1)解压hadoop-2.7.6.tar.gz到非中文目录 2)进入share文件夹,查找所有jar包,并把jar包拷贝到_lib文件夹下 3)在全部jar包中查找sources.jar,并剪切到_source文件夹。 4)在全部jar包中查找tes 阅读全文
posted @ 2018-05-19 23:56 Frankdeng 阅读(2637) 评论(0) 推荐(1) 编辑
摘要:一、背景 Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步. 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需 阅读全文
posted @ 2018-05-19 23:26 Frankdeng 阅读(1641) 评论(0) 推荐(0) 编辑
摘要:索引类似大学图书馆建书目索引,可以提高数据检索的效率,降低数据库的IO成本。MySQL在300万条记录左右性能开始逐渐下降,虽然官方文档说500~800w记录,所以大数据量建立索引是非常有必要的。MySQL提供了Explain,用于显示SQL执行的详细信息,可以进行索引的优化。 一、导致SQL执行慢 阅读全文
posted @ 2018-05-19 13:20 Frankdeng 阅读(1522) 评论(0) 推荐(0) 编辑
摘要:一 下载 下载地址:https://www.mysql.com/downloads/ 1 点击第一个链接地址,进入MySQL官方网站,单击“Downloads”下载Tab页,进入下载界面 一 下载 下载地址:https://www.mysql.com/downloads/ 1 点击第一个链接地址,进 阅读全文
posted @ 2018-05-18 23:51 Frankdeng 阅读(5408) 评论(1) 推荐(2) 编辑
摘要:一 HDFS概述 1.1 HDFS产生背景 随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2 HDFS概念 HDFS 阅读全文
posted @ 2018-05-18 15:24 Frankdeng 阅读(4225) 评论(0) 推荐(0) 编辑
摘要:一 完全分布式集群(单点) Hadoop官方地址:http://hadoop.apache.org/ 1 准备3台客户机 1.1防火墙,静态IP,主机名 关闭防火墙,设置静态IP,主机名此处略,参考 Linux之CentOS7.5安装及克隆 1.2 修改host文件 我们希望三个主机之间都能够使用主 阅读全文
posted @ 2018-05-16 19:26 Frankdeng 阅读(30267) 评论(9) 推荐(1) 编辑
摘要:一 Zookeeper概述 1.1 概述 Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的 阅读全文
posted @ 2018-05-15 23:25 Frankdeng 阅读(1335) 评论(0) 推荐(0) 编辑
摘要:一. 分布式安装部署 1.0 下载地址 官网首页: https://zookeeper.apache.org/ 下载地址: http://mirror.bit.edu.cn/apache/zookeeper/ 1.1 集群规划 在node21、node22和ode23三个节点上部署Zookeeper 阅读全文
posted @ 2018-05-14 10:41 Frankdeng 阅读(8144) 评论(1) 推荐(2) 编辑
摘要:一 NTP时间服务器 1 局域网内的NTP同步配置 注意 所有配置操作必须是root用户 ,局域网内node21作为NTP Server,node22,node23作为NTP Client与服务器进行时钟同步,ntpd Server,用于和外部公共ntpd同步标准时间,同时作为内网的Server,n 阅读全文
posted @ 2018-05-13 23:17 Frankdeng 阅读(10298) 评论(1) 推荐(0) 编辑
摘要:官网下载地址:https://www.centos.org/,点击Get CentOS Now,点击DVD ISO,选择本国资源Actual Country ,一般选择列表中第一行就可以下载。 这里我用的是 CentOS-7-x86_64-DVD-1804.iso ,此镜像包含所有系统需要的软件安装 阅读全文
posted @ 2018-05-12 00:42 Frankdeng 阅读(66160) 评论(1) 推荐(5) 编辑
摘要:一、软件安装 1. 下载地址: https://www.jetbrains.com/idea/download/#section=windows 2. 安装: 点击.exe,选择安装路径,点击next,点击install,点击Finish。 3. IDEA注册码激活 二、向导配置 1. 初次安装配置 阅读全文
posted @ 2018-05-10 14:55 Frankdeng 阅读(20784) 评论(0) 推荐(6) 编辑
摘要:遍历 遍历就是把这个数组的每个元素 显示出来 遍历的方法就是先定义这个数组的大小,然后用FOR循环来完成数组,例如 这个就是一个double 型的数组用for去遍历每个元素 而结束条件就是这个数组的最后一个数组 score.length就可以遍历这个数组了 求和 求和就是在遍历的基础上添加一个求和的 阅读全文
posted @ 2018-05-09 12:14 Frankdeng 阅读(13237) 评论(0) 推荐(0) 编辑
摘要:一 简介 Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上,并兼容现有的Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。 二 安 阅读全文
posted @ 2018-05-07 23:53 Frankdeng 阅读(1472) 评论(1) 推荐(0) 编辑
摘要:一 Hadoop简介 1.1Hadoop产生的背景 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问,如何解决数十亿网页的存储和索引问题。 2. 2003年开始谷歌陆续发表的三篇 阅读全文
posted @ 2018-05-05 22:52 Frankdeng 阅读(8520) 评论(1) 推荐(1) 编辑

点击右上角即可分享
微信分享提示