Fork me on GitHub

随笔分类 -  大数据技术栈 / Hadoop

摘要:Linux简介 Linux有两种含义: 一种是linus 编写的开源操作系统的内核; 另一种是广义的操作系统; 执行环境 云主机; 无数据的PC(不推荐多系统混跑) 虚拟机(推荐方式) Linux内核版本 http://www.kernel.org/ 内核版本分为三个部分 主版本号、次版本号、末版本 阅读全文
posted @ 2022-09-20 22:57 kris12 阅读(210) 评论(0) 推荐(0) 编辑
摘要:1. 大数据应用 大数据技术,其实起源于 Google 在 2004 年前后发表的三篇论文,也就是我们经常听到的“三驾马车”, 分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。 搜索引擎主要就做两件事情,一个是网页抓取,一个是索引 阅读全文
posted @ 2021-04-10 12:13 kris12 阅读(138) 评论(0) 推荐(0) 编辑
摘要:大数据概述 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资 产。 大数据主要解决,海量数据的采集、存储和分析计算问题。 按顺序给出数据存储单位:bit、By 阅读全文
posted @ 2021-04-09 14:13 kris12 阅读(469) 评论(0) 推荐(0) 编辑
摘要:CAP 定理(CAP theorem)又被称作布鲁尔定理(Brewer's theorem),是加州大学伯克利分校的计算机科学家埃里克·布鲁尔(Eric Brewer)在 2000 年的 ACM PODC 上提出的一 个猜想。2002 年,麻省理工学院的赛斯·吉尔伯特(Seth Gilbert)和南 阅读全文
posted @ 2021-01-25 23:36 kris12 阅读(427) 评论(0) 推荐(0) 编辑
摘要:Yarn用户资源隔离配置,主要使用 Yarn动态资源池(dynamic resource pool) _ 对YARN应用程序进行资源和策略分配的池。(Impala资源也可以动态管理)_动态资源池允许安排和分配用户访问特定池,用来执行YARN应用程序。如果一个池的资源未被使用,它可以被占用(preem 阅读全文
posted @ 2020-03-21 09:27 kris12 阅读(5128) 评论(0) 推荐(1) 编辑
摘要:夜间多个任务同时并行,总有几个随机性有任务失败,查看日志: 刷选关键词 Caused by 或者 FAILED cat -n ads_channel.log |grep "Caused by" 7732 Caused by: java.util.concurrent.ExecutionExcepti 阅读全文
posted @ 2019-12-21 11:38 kris12 阅读(1052) 评论(0) 推荐(0) 编辑
摘要:1. HDFS-HA 在分布式文件系统 HDFS 中,NameNode 是 master 角色,当 NameNode 出现故障后,整个 HDFS 将不可用,所以保证 NameNode 的稳定性至关重要。在 Hadoop1.x 版本中,HDFS 只支持一个 NameNode,为了保证稳定性,只能靠 S 阅读全文
posted @ 2019-02-13 22:46 kris12 阅读(933) 评论(0) 推荐(2) 编辑
摘要:MapReduce框架原理 MapReduce核心思想 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。 4)Ma 阅读全文
posted @ 2019-01-29 17:45 kris12 阅读(972) 评论(0) 推荐(0) 编辑
摘要:1. 计数器应用 2. 数据清洗(ETL) 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 LogMapper.java @Override protected void map(L 阅读全文
posted @ 2019-01-29 14:16 kris12 阅读(729) 评论(0) 推荐(0) 编辑
摘要:1、概述 工作机制 协调整个框架运行;但又处于背景版的角色; Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 Zookeeper=文件系统+通知机制; 特点 集群的数量都是奇数个;(3台和4台的容错机制(挂几台机器还是可以照样运行)是一样的,都是1台;4台太消耗 阅读全文
posted @ 2019-01-27 22:37 kris12 阅读(591) 评论(0) 推荐(1) 编辑
摘要:概述 分布式运算程序 优点:易于编程;良好扩展性;高容错性;适合PB级以上海量数据的离线处理; 缺点:不擅长实时计算;不擅长流式计算;不擅长DAG有向图计算; 核心思想 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的 阅读全文
posted @ 2019-01-20 21:24 kris12 阅读(260) 评论(0) 推荐(0) 编辑
摘要:HDFS 1. HDFS--写(上传) NameNode:Master主管管理者,管理HDFS的名称空间、配置副本策略、管理数据块Block的映射信息、处理客户端读写请求; DataNode:Slave,执行NN下达的命令,存储实际的数据块、执行数据块的读写操作; Client:①文件切分,将文件切 阅读全文
posted @ 2019-01-20 21:24 kris12 阅读(616) 评论(0) 推荐(0) 编辑
摘要:大数据生态体系 1. Hadoop组成 HDFS(Hadoop Distributed File System)架构概述 NameNode目录--主刀医生(nn); DataNode(dn)数据; Secondary NameNode(2nn)助手; 1)NameNode(nn):存储文件的元数据, 阅读全文
posted @ 2019-01-17 18:02 kris12 阅读(979) 评论(0) 推荐(1) 编辑

levels of contents