摘要: 很多朋友在刚开始搭建和使用 YARN 集群的时候,很容易就被纷繁复杂的配置参数搞晕了:参数名称相近、新老命名掺杂、文档说明模糊 。特别是那几个关于内存的配置参数,即使看好几遍文档也不能完全弄懂含义不说,配置时一不小心就会张冠李戴,犯错误。 如果你同样遇到了上面的问题,没有关系,在这篇文章中,我就为大 阅读全文
posted @ 2019-08-30 15:25 _XiongH 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 在Hive计算中,经常会根据计算引擎的不同(hive on spark与hive on mr),设置两套参数。 Spark参数: set spark.master=yarn-cluster; #设置spark提交模式 set hive.execution.engine=spark; #设置计算引擎 阅读全文
posted @ 2019-08-28 17:24 _XiongH 阅读(2191) 评论(0) 推荐(1) 编辑
摘要: 1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级 阅读全文
posted @ 2019-08-04 20:43 _XiongH 阅读(6332) 评论(0) 推荐(4) 编辑
摘要: 目录: 使用场景 基本架构 数据划分 类型映射 Sqoop Import Sqoop Export 使用场景 线上业务系统使用的存储一般是MySQL等关系型数据库,MySQL的优势是能快速应对频繁的增删改查,但对于针对历史数据等大数据量进行统计分析,数据挖掘等需求就不能满足了,这也是大数据技术出现的 阅读全文
posted @ 2019-08-03 19:16 _XiongH 阅读(1271) 评论(0) 推荐(1) 编辑
摘要: 数据分析和数据挖掘都可以做为“玩数据”的方法论,两者有很多的共性,也有显著的差异。从分析的目的来看,数据分析一般是对历史数据进行统计学上的一些分析,数据挖掘更侧重于机器对未来的预测,一般应用于分类、聚类、推荐、关联规则等。 数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识 阅读全文
posted @ 2019-08-03 17:45 _XiongH 阅读(339) 评论(0) 推荐(1) 编辑
摘要: 星形模型 雪花模型 星型模型是所有维度表都是连接在一个事实表上面,雪花模型是将维度表拆分地更加详细,是多层次的。 在星型模型的维度表里面,一张维度表储存了众多存在冗余的信息,为什么冗余,在哪里冗余,我想了一个简单的例子。 如 地域维表 国家a GDP 国家b GDP 国家a 省份a GDP 国家a 阅读全文
posted @ 2019-08-01 15:54 _XiongH 阅读(843) 评论(0) 推荐(0) 编辑
摘要: Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Sp 阅读全文
posted @ 2019-07-30 20:48 _XiongH 阅读(440) 评论(1) 推荐(0) 编辑
摘要: ETL的考虑 做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是导数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒 还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升 阅读全文
posted @ 2019-07-30 20:30 _XiongH 阅读(296) 评论(0) 推荐(1) 编辑
摘要: 阅读目录 前言 数据库的"分家" 操作型数据库 VS 分析型数据库 数据仓库(data warehouse)定义 数据仓库组件 数据集市(data mart) 数据仓库开发流程 小结 阅读目录 前言 数据库的"分家" 操作型数据库 VS 分析型数据库 数据仓库(data warehouse)定义 数 阅读全文
posted @ 2019-07-29 19:34 _XiongH 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 观点一: 简言之:这两个差别很大,使用场景区别也很大。 先说flume: 日志采集。线上数据一般主要是落地文件或者通过socket传输给另外一个系统。这种情况下,你很难推动线上应用或服务去修改接口,直接向kafka里写数据。这时候你可能就需要flume这样的系统帮你去做传输。 对于数量级别,做过单机 阅读全文
posted @ 2019-07-28 14:15 _XiongH 阅读(711) 评论(0) 推荐(0) 编辑