_XiongH - 博客园

2019年8月30日

摘要：很多朋友在刚开始搭建和使用 YARN 集群的时候，很容易就被纷繁复杂的配置参数搞晕了：参数名称相近、新老命名掺杂、文档说明模糊。特别是那几个关于内存的配置参数，即使看好几遍文档也不能完全弄懂含义不说，配置时一不小心就会张冠李戴，犯错误。如果你同样遇到了上面的问题，没有关系，在这篇文章中，我就为大阅读全文

posted @ 2019-08-30 15:25 _XiongH 阅读(492) 评论(0) 推荐(0)

2019年8月28日

Hive计算参数设置

摘要：在Hive计算中，经常会根据计算引擎的不同(hive on spark与hive on mr)，设置两套参数。 Spark参数： set spark.master=yarn-cluster; #设置spark提交模式 set hive.execution.engine=spark; #设置计算引擎阅读全文

posted @ 2019-08-28 17:24 _XiongH 阅读(2262) 评论(0) 推荐(1)

2019年8月4日

离线数仓与实时数仓案例

摘要： 1.数据仓库简介数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合，用于支持管理决策。数据仓库是伴随着企业信息化发展起来的，在企业信息化的过程中，随着信息化工具的升级阅读全文

posted @ 2019-08-04 20:43 _XiongH 阅读(6532) 评论(0) 推荐(4)

2019年8月3日

Sqoop详细知识

摘要：目录：使用场景基本架构数据划分类型映射 Sqoop Import Sqoop Export 使用场景线上业务系统使用的存储一般是MySQL等关系型数据库，MySQL的优势是能快速应对频繁的增删改查，但对于针对历史数据等大数据量进行统计分析，数据挖掘等需求就不能满足了，这也是大数据技术出现的阅读全文

posted @ 2019-08-03 19:16 _XiongH 阅读(2353) 评论(0) 推荐(1)

数据分析与数据挖掘

摘要：数据分析和数据挖掘都可以做为“玩数据”的方法论，两者有很多的共性，也有显著的差异。从分析的目的来看，数据分析一般是对历史数据进行统计学上的一些分析，数据挖掘更侧重于机器对未来的预测，一般应用于分类、聚类、推荐、关联规则等。数据分析(狭义)与数据挖掘的本质都是一样的，都是从数据里面发现关于业务的知识阅读全文

posted @ 2019-08-03 17:45 _XiongH 阅读(393) 评论(0) 推荐(1)

2019年8月1日

数仓星形模型与雪花模型简单理解

摘要：星形模型雪花模型星型模型是所有维度表都是连接在一个事实表上面，雪花模型是将维度表拆分地更加详细，是多层次的。在星型模型的维度表里面，一张维度表储存了众多存在冗余的信息，为什么冗余，在哪里冗余，我想了一个简单的例子。如地域维表国家a GDP 国家b GDP 国家a 省份a GDP 国家a 阅读全文

posted @ 2019-08-01 15:54 _XiongH 阅读(979) 评论(0) 推荐(0)

2019年7月30日

mapreduce多进程与spark多线程比较

摘要： Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver 端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Sp 阅读全文

posted @ 2019-07-30 20:48 _XiongH 阅读(461) 评论(1) 推荐(0)

ETL工具总结

摘要： ETL的考虑做数据仓库系统，ETL是关键的一环。说大了，ETL是数据整合解决方案，说小了，就是导数据的工具。回忆一下工作这么些年来，处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量，使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中，ETL上升阅读全文

posted @ 2019-07-30 20:30 _XiongH 阅读(320) 评论(0) 推荐(1)

2019年7月29日

数据仓库概述

摘要：阅读目录前言数据库的"分家" 操作型数据库 VS 分析型数据库数据仓库(data warehouse)定义数据仓库组件数据集市(data mart) 数据仓库开发流程小结阅读目录前言数据库的"分家" 操作型数据库 VS 分析型数据库数据仓库(data warehouse)定义数阅读全文

posted @ 2019-07-29 19:34 _XiongH 阅读(457) 评论(0) 推荐(0)

2019年7月28日

Kafka与Flume区别

摘要：观点一：简言之：这两个差别很大，使用场景区别也很大。先说flume：日志采集。线上数据一般主要是落地文件或者通过socket传输给另外一个系统。这种情况下，你很难推动线上应用或服务去修改接口，直接向kafka里写数据。这时候你可能就需要flume这样的系统帮你去做传输。对于数量级别，做过单机阅读全文

posted @ 2019-07-28 14:15 _XiongH 阅读(806) 评论(0) 推荐(0)

BigData

公告