上一页 1 2 3 4 5 6 ··· 26 下一页

2020年2月7日

spark日常问题

摘要: 1/ 在hue运行spark sql 报java.io.IOException: Failed to create local dir in /tmp/blockmgr-adb70127-0a28-4256-a205-c575acc74f9d/06. 参考: https://www.jianshu. 阅读全文

posted @ 2020-02-07 16:59 锋锋2019 阅读(1154) 评论(0) 推荐(0) 编辑

2020年2月5日

EMR默认ldap配置

摘要: 官网: https://help.aliyun.com/document_detail/62675.html?spm=5176.11065259.1996646101.searchclickresult.3f03c8e7LDHk9O&aly_as=WO9lToO- 新建emr集群,集群默认是 Apa 阅读全文

posted @ 2020-02-05 21:12 锋锋2019 阅读(745) 评论(0) 推荐(0) 编辑

2020年1月31日

数据质量

摘要: 数据质量:1/ 数据质量控制环节2/ 元数据管理 数据质量包括:数据的完整性 数据自成体系、无数据缺失(包括实体记录缺失、字段信息缺失)数据一致性: 在整个数仓中,同一数据各主题、层次数据一致正确性: 在数仓各部分、确保数据不失真及时性: 整个数仓处理过程中,数据及时到位、及时反馈 数据质量的控制不 阅读全文

posted @ 2020-01-31 12:52 锋锋2019 阅读(816) 评论(0) 推荐(0) 编辑

数据追溯

摘要: 数据追溯: 数仓需要追溯,就是看以前的历史变化,比如一个月前的某一天的状态. 比如回溯2018-05-12--query ".....where updated_time>=2018-05-12 00:00:00" >stage.tmp_a#方法一,分区 每天保留一个快照.insert overwi 阅读全文

posted @ 2020-01-31 11:35 锋锋2019 阅读(563) 评论(0) 推荐(0) 编辑

2020年1月26日

调度介绍

摘要: 调度系统: 1. oozie: 和hadoop、hive、spark有很强的版本依赖 阅读全文

posted @ 2020-01-26 20:44 锋锋2019 阅读(95) 评论(0) 推荐(0) 编辑

2020年1月25日

大数据整体框架

该文被密码保护。 阅读全文

posted @ 2020-01-25 15:53 锋锋2019 阅读(9) 评论(0) 推荐(0) 编辑

hbase原理

摘要: Hbase:基于hdfs的数据库,来源于google的一篇论文bigtable.基于HDFS实现高可用、分布式、列式存储、核心包括:-Rowkey: 可以简单理解成mysql中的主键-列簇,列-时间戳按照Rowkey字典顺序存储,基于rowkey的高效检索,同时继承hdfs的高吞吐能力。Hbase用 阅读全文

posted @ 2020-01-25 15:05 锋锋2019 阅读(208) 评论(0) 推荐(0) 编辑

2020年1月20日

重要可视化产品

该文被密码保护。 阅读全文

posted @ 2020-01-20 18:55 锋锋2019 阅读(3) 评论(0) 推荐(0) 编辑

2020年1月19日

阿里云日常管理和链接

摘要: 阿里云帐号里:企业 >有个资源管理,财务管理 https://resourcemanager.console.aliyun.com/resource-directory 命令和api添加安全组规则: https://help.aliyun.com/document_detail/25485.html 阅读全文

posted @ 2020-01-19 10:36 锋锋2019 阅读(164) 评论(0) 推荐(0) 编辑

2020年1月17日

智能网关

摘要: 参考: https://help.aliyun.com/document_detail/93671.html?spm=a2c4g.11186623.6.663.6b8c5c55IO9cPK 配置步骤: 1、SAG加入CCN,并且配置线下路由同步方式; 2、CCN加入CEN; 我看现在CCN没有加上, 阅读全文

posted @ 2020-01-17 20:47 锋锋2019 阅读(212) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 26 下一页

导航