Hadoop - 随笔分类 - kris12

Linux| 01简介| 虚拟机的安装

摘要：Linux简介 Linux有两种含义：一种是linus 编写的开源操作系统的内核；另一种是广义的操作系统；执行环境云主机；无数据的PC（不推荐多系统混跑）虚拟机（推荐方式） Linux内核版本 http://www.kernel.org/ 内核版本分为三个部分主版本号、次版本号、末版本阅读全文

posted @ 2022-09-20 22:57 kris12 阅读(252) 评论(0) 推荐(0)

大数据应用| 技术的学习| 社区的参与

摘要：1. 大数据应用大数据技术，其实起源于 Google 在 2004 年前后发表的三篇论文，也就是我们经常听到的“三驾马车”，分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。搜索引擎主要就做两件事情，一个是网页抓取，一个是索引阅读全文

posted @ 2021-04-10 12:13 kris12 阅读(187) 评论(0) 推荐(0)

Hadoop| 发展史

摘要：大数据概述大数据（Big Data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决，海量数据的采集、存储和分析计算问题。按顺序给出数据存储单位：bit、By 阅读全文

posted @ 2021-04-09 14:13 kris12 阅读(594) 评论(0) 推荐(0)

CAP 定理

摘要：CAP 定理（CAP theorem）又被称作布鲁尔定理（Brewer's theorem），是加州大学伯克利分校的计算机科学家埃里克·布鲁尔（Eric Brewer）在 2000 年的 ACM PODC 上提出的一个猜想。2002 年，麻省理工学院的赛斯·吉尔伯特（Seth Gilbert）和南阅读全文

posted @ 2021-01-25 23:36 kris12 阅读(597) 评论(0) 推荐(0)

CDH| Yarn资源队列划分管理

摘要：Yarn用户资源隔离配置，主要使用 Yarn动态资源池(dynamic resource pool) _ 对YARN应用程序进行资源和策略分配的池。(Impala资源也可以动态管理)_动态资源池允许安排和分配用户访问特定池，用来执行YARN应用程序。如果一个池的资源未被使用，它可以被占用(preem 阅读全文

posted @ 2020-03-21 09:27 kris12 阅读(5451) 评论(0) 推荐(1)

多个线程运行MR程序时hadoop出现的问题

摘要：夜间多个任务同时并行，总有几个随机性有任务失败，查看日志：刷选关键词 Caused by 或者 FAILED cat -n ads_channel.log |grep "Caused by" 7732 Caused by: java.util.concurrent.ExecutionExcepti 阅读全文

posted @ 2019-12-21 11:38 kris12 阅读(1145) 评论(0) 推荐(0)

Hadoop| HDFS-HA高可用 | Yarn-HA

摘要：1. HDFS-HA 在分布式文件系统 HDFS 中，NameNode 是 master 角色，当 NameNode 出现故障后，整个 HDFS 将不可用，所以保证 NameNode 的稳定性至关重要。在 Hadoop1.x 版本中，HDFS 只支持一个 NameNode，为了保证稳定性，只能靠 S 阅读全文

posted @ 2019-02-13 22:46 kris12 阅读(1031) 评论(0) 推荐(2)

Hadoop| MapperReduce02 框架原理

摘要：MapReduce框架原理 MapReduce核心思想 1）分布式的运算程序往往需要分成至少2个阶段。 2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。 3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。 4）Ma 阅读全文

posted @ 2019-01-29 17:45 kris12 阅读(1026) 评论(0) 推荐(0)

Hadoop| YARN| 计数器| 压缩| 调优

摘要：1. 计数器应用 2. 数据清洗（ETL）在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。 LogMapper.java @Override protected void map(L 阅读全文

posted @ 2019-01-29 14:16 kris12 阅读(779) 评论(0) 推荐(0)

Zookeeper

摘要：1、概述工作机制协调整个框架运行；但又处于背景版的角色； Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 Zookeeper=文件系统+通知机制；特点集群的数量都是奇数个；（3台和4台的容错机制（挂几台机器还是可以照样运行）是一样的，都是1台；4台太消耗阅读全文

posted @ 2019-01-27 22:37 kris12 阅读(621) 评论(0) 推荐(1)

Hadoop| HDFS

摘要：HDFS 1. HDFS--写（上传） NameNode：Master主管管理者，管理HDFS的名称空间、配置副本策略、管理数据块Block的映射信息、处理客户端读写请求； DataNode：Slave，执行NN下达的命令，存储实际的数据块、执行数据块的读写操作； Client：①文件切分，将文件切阅读全文

posted @ 2019-01-20 21:24 kris12 阅读(648) 评论(0) 推荐(0)

Hadoop| MapReduce01 概述

摘要：概述分布式运算程序优点：易于编程；良好扩展性；高容错性；适合PB级以上海量数据的离线处理；缺点：不擅长实时计算；不擅长流式计算；不擅长DAG有向图计算；核心思想 1）分布式的运算程序往往需要分成至少2个阶段。 2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。 3）第二个阶段的阅读全文

posted @ 2019-01-20 21:24 kris12 阅读(283) 评论(0) 推荐(0)

Hadoop| 集群的搭建

摘要：大数据生态体系 1. Hadoop组成 HDFS（Hadoop Distributed File System）架构概述 NameNode目录--主刀医生(nn)； DataNode（dn)数据； Secondary NameNode（2nn）助手； 1）NameNode（nn）：存储文件的元数据，阅读全文

posted @ 2019-01-17 18:02 kris12 阅读(1048) 评论(0) 推荐(1)

kris12

Self-discipline gives me freedom.

随笔分类 - 大数据技术栈 / Hadoop

公告