返回顶部
扩大
缩小

Heaton

2020年12月16日

环境篇:Atlas2.1.0兼容CDH6.3.2部署

摘要: 环境篇:Atlas2.1.0兼容CDH6.3.2部署 Atlas 是什么? Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对 阅读全文

posted @ 2020-12-16 13:59 咘雷扎克 阅读(3408) 评论(0) 推荐(0) 编辑

2020年7月30日

环境篇:数据同步工具DataX

摘要: 环境篇:数据同步工具DataX 1 概述 https://github.com/alibaba/DataX DataX是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBas 阅读全文

posted @ 2020-07-30 17:37 咘雷扎克 阅读(1687) 评论(3) 推荐(0) 编辑

2020年7月28日

环境篇:DolphinScheduler-1.3.1安装部署及使用技巧

摘要: 环境篇:DolphinScheduler-1.3.1安装部署 1 配置jdk JDK百度网盘:https://pan.baidu.com/s/1og3mfefJrwl1QGZGZDZ8Sw 提取码:t6l1 #查看命令 rpm -qa | grep java #删除命令 rpm -e --nodep 阅读全文

posted @ 2020-07-28 23:11 咘雷扎克 阅读(20586) 评论(4) 推荐(6) 编辑

2020年7月24日

大数据篇:一文读懂@数据仓库(PPT文字版)

摘要: 大数据篇:一文读懂@数据仓库 1 网络词汇总结 1.1 数据中台 数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。 数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一 阅读全文

posted @ 2020-07-24 18:22 咘雷扎克 阅读(4591) 评论(2) 推荐(6) 编辑

2020年7月6日

大数据篇:数据仓库案例

摘要: 离线数据仓库 数据仓库(Data WareHouse)是为企业所有决策制定过程,提供所有系统数据支持的战略集合 通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制、成本、提高产品质量等 数据仓库,并不是数据最终目的地,而是为数据最终的目的地做好准备:清洗、转义、分类、重组、合并、拆分、统计 阅读全文

posted @ 2020-07-06 17:21 咘雷扎克 阅读(8474) 评论(7) 推荐(20) 编辑

2020年6月18日

环境篇:Kylin3.0.1集成CDH6.2.0

摘要: 环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 阅读全文

posted @ 2020-06-18 22:37 咘雷扎克 阅读(1781) 评论(1) 推荐(3) 编辑

2020年6月17日

大数据篇:一文读懂@数据仓库(文字版)

摘要: 大数据篇:一文读懂@数据仓库 1 网络词汇总结 人工智能层的:智慧地球、智慧城市、智慧社会 企业层面的:数字互联网,数字经济、数字平台、数字城市、数字政府; 平台层面的:物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱 技术层面的:数据仓库、数据集市、大数据平台、数据湖、数据中台 阅读全文

posted @ 2020-06-17 15:48 咘雷扎克 阅读(2064) 评论(4) 推荐(9) 编辑

2020年6月12日

环境篇:CDH优化篇

摘要: 环境篇:CDH优化篇 为什么出这篇文章? 近期有很多公司开始引入大数据,由于各方资源有限,并不能合理分配服务器资源,和服务器选型,小叶这里将工作中的总结出来,给新入行的小伙伴带个方向,以下会将企业级测试环境和线上环境的基础方案给出,不敢说一定对,但是本人亲自测试,发现集群使用率稳定提高了3分之1,最 阅读全文

posted @ 2020-06-12 10:58 咘雷扎克 阅读(5555) 评论(0) 推荐(3) 编辑

2020年6月9日

环境篇:CM+CDH6.3.2环境搭建(全网最全)

摘要: 环境篇:CM+CDH6.3.2环境搭建(全网最全) 零 杂谈 0.1 相关大事件 国外: 2010年,美国总统办公室下属科学技术顾问委员会和信息技术顾问向奥巴马和国会提交《规划数字化未来》,报告提出”如何收集、保存、管理、分析、共享正成指数增长的数据是我们面临的一个挑战“ 2012年3月,奥巴马签署 阅读全文

posted @ 2020-06-09 15:08 咘雷扎克 阅读(10419) 评论(3) 推荐(8) 编辑

2020年5月24日

环境篇:Zeppelin

摘要: 环境篇:Zeppelin Zeppelin 是什么 Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。 Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档, 阅读全文

posted @ 2020-05-24 18:35 咘雷扎克 阅读(4463) 评论(0) 推荐(0) 编辑

2020年5月9日

环境篇:Superset

摘要: 环境篇:Superset Superset 是什么? Apache Superset 是一个开源、现代、轻量的BI分析工具,能够对接多种数据源,拥有丰富的图表展示形式、支持自定义仪表盘,用户界面友好,易用。 如果没有Superset 大数据展示需要自行开发,费时费力,不能直观的展示数据报表,如数据仓 阅读全文

posted @ 2020-05-09 17:48 咘雷扎克 阅读(1145) 评论(0) 推荐(0) 编辑

2020年5月8日

环境篇:Atlas2.0.0兼容CDH6.2.0部署

摘要: 环境篇:Atlas2.0.0兼容CDH6.2.0部署 Atlas 是什么? Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对 阅读全文

posted @ 2020-05-08 22:48 咘雷扎克 阅读(5068) 评论(6) 推荐(2) 编辑

2020年4月18日

大数据篇:Spark

摘要: 大数据篇:Spark Spark是什么 Spark是一个快速(基于内存),通用,可扩展的计算引擎,采用Scala语言编写。2009年诞生于UC Berkeley(加州大学伯克利分校,CAL的AMP实验室),2010年开源,2013年6月进入Apach孵化器,2014年成为Apach顶级项目,目前有1 阅读全文

posted @ 2020-04-18 22:27 咘雷扎克 阅读(1900) 评论(0) 推荐(3) 编辑

2020年4月14日

Scala篇:Scala语言基础

摘要: Scala语言基础 1 语言介绍 他已经出生15年了,就像明星一样,谁都不可能一开始就人气爆棚粉丝无数,得慢慢混。 成功原因:完全兼容java代码。 身世介绍 Scala在2004年正式问世,他的爸爸是Martin Odersky,这位老头同时也是Genenric Java的爸爸。神不神奇!Scal 阅读全文

posted @ 2020-04-14 14:29 咘雷扎克 阅读(999) 评论(0) 推荐(1) 编辑

2020年4月12日

大数据篇:Hbase

摘要: 大数据篇:Hbase Hbase是什么 Hbase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库,物理结构存储结构(K V)。 如果没有Hbase 如何在大数据场景中,做到上亿数据秒级返回。(有条件:单条数据,范围数据) "hbase.apache.org" 1 Hbase结构及数据类型 阅读全文

posted @ 2020-04-12 16:14 咘雷扎克 阅读(1262) 评论(0) 推荐(2) 编辑

导航