08 2019 档案
摘要:ContainerContainer就是一个yarn的java进程,在Mapreduce中的AM,MapTask,ReduceTask都作为Container在Yarn的框架上执行,你可以在RM的网页上[8088端口]看到Container的状态。 基础Yarn的ResourceManger(简称R
阅读全文
摘要:Container是什么? Container就是一个yarn的java进程,在Mapreduce中的AM,MapTask,ReduceTask都作为Container在Yarn的框架上执行,可以在RM的网页上看到Container的状态。 基础 Yarn的ResourceManger(简称RM)通
阅读全文
摘要:Hadoop YARN同时支持内存和CPU两种资源的调度,本文将介绍YARN是如何对这些资源进行调度和隔离的。 在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供
阅读全文
摘要:很多朋友在刚开始搭建和使用 YARN 集群的时候,很容易就被纷繁复杂的配置参数搞晕了:参数名称相近、新老命名掺杂、文档说明模糊 。特别是那几个关于内存的配置参数,即使看好几遍文档也不能完全弄懂含义不说,配置时一不小心就会张冠李戴,犯错误。 如果你同样遇到了上面的问题,没有关系,在这篇文章中,我就为大
阅读全文
摘要:在Hive计算中,经常会根据计算引擎的不同(hive on spark与hive on mr),设置两套参数。 Spark参数: set spark.master=yarn-cluster; #设置spark提交模式 set hive.execution.engine=spark; #设置计算引擎
阅读全文
摘要:1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级
阅读全文
摘要:目录: 使用场景 基本架构 数据划分 类型映射 Sqoop Import Sqoop Export 使用场景 线上业务系统使用的存储一般是MySQL等关系型数据库,MySQL的优势是能快速应对频繁的增删改查,但对于针对历史数据等大数据量进行统计分析,数据挖掘等需求就不能满足了,这也是大数据技术出现的
阅读全文
摘要:数据分析和数据挖掘都可以做为“玩数据”的方法论,两者有很多的共性,也有显著的差异。从分析的目的来看,数据分析一般是对历史数据进行统计学上的一些分析,数据挖掘更侧重于机器对未来的预测,一般应用于分类、聚类、推荐、关联规则等。 数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识
阅读全文
摘要:星形模型 雪花模型 星型模型是所有维度表都是连接在一个事实表上面,雪花模型是将维度表拆分地更加详细,是多层次的。 在星型模型的维度表里面,一张维度表储存了众多存在冗余的信息,为什么冗余,在哪里冗余,我想了一个简单的例子。 如 地域维表 国家a GDP 国家b GDP 国家a 省份a GDP 国家a
阅读全文