随笔分类 - 大数据
摘要:近期Datahub 发布了最新的版本0.8.5,作为LinkedIn开源的通用的元数据搜索和发现工具。Datahub近一年来有了巨大的发展,也成为了很多公司进行元数据管理的调研方向并进行使用的选择。 新功能 0.8.5版本中datahub修复了各种稳定性的修复,并改进了多个数据源的元数据获取方式,包
阅读全文
摘要:Apache Superset 是一个现代的、企业级的轻量BI平台,提供了大量数据可视化组件。 距离superset上一个版本发布已经过了近三个月的时间,我们终于等到了1.2.0版本。 之前就曾提到过Superset在不断增强与 Apache ECharts的整合。此版本继续加强这方面的改进,并且还
阅读全文
摘要:随着公司越来越多的利用数据为企业提供支撑,推动创新。了解数据的准确性,可靠性就非常重要。数十年来,对于数据治理的工作一直依靠数据目录来完成,但是这就足够了吗? 数据目录 大家对于数据目录非常的熟悉了,有点类似于图书馆的目录。数据目录作为元数据的清单,向用户提供数据的可访问性,状态和位置等等信息。在过
阅读全文
摘要:1、hadoop dfs 专门针对hdfs系统 2、hdfs dfs 和hadoop dfs,当使用hadoop dfs时会被转为hdfs dfs命令 3、hadoop fs 范围更广
阅读全文
摘要:在数据治理中,数据探索服务的价值在初期往往是被忽视的,但是随着业务的增加,分析人员的增加,数据探索服务的价值就会越来越大。 一个成功的数据管理平台,不仅仅要提供各种数据分析的工具,提供各种各样的数据源,更要提供数据探索的能力。 为什么数据探索服务很重要? 想象一下,作为一名数据科学家,他刚刚获得新的
阅读全文
摘要:REA Group是一家专门面向房地产与实业资产的跨国数字广告公司。 他们主要为消费者提供房地产购买、出售与租赁服务,同时发布各类房产新闻、装修技巧以及生活方式层面的内容。每一天,都有数百万消费者访问REA Group网站。 REA Group每天都需要进行大量的数据分析工作,去分析用户,财务等信息
阅读全文
摘要:目前,Amundsen并不支持表级别和列级别的数据血缘功能,也没有办法展示数据的来龙去脉。 作为Amundsen一项非常核心的功能,Lineage功能早已经提上日程,并进入设计与研发阶段。本位将展示此功能的一些基本设计。 概述 初步设计是通过表详情页,进入到相关页面,来展示表的来源与输出。 作为这项
阅读全文
摘要:Amundsen的使命,整理有关数据的所有信息,并使其具有普遍适用性。 这是Amundsen官网的一句话,对于元数据的管理工作,复杂且繁琐。可用的工具很多各有千秋,数据血缘做的较好的应该是Apache Atlas,而数据可视化做的较好的应该是Apache Superset。业界一直需要一个可以整合这
阅读全文
摘要:在hadoop执行删除文件命令 如果不带 -skipTrash 文件是进入了回收站 空间并不会被释放 会隔一段时间才被删除 设置该时间位置为: core-site.xml fs.trash.interval 360 单位是分钟 360意思是会在6个小时后清空回收站
阅读全文
摘要:直接删除目录(不放入回收站) hdfs dfs -rm -skipTrash /tmp/aaa 清空回收站 hdfs dfs -expunge 执行完命令后,回收站的数据会在一分钟后清除。
阅读全文
摘要:Apache Superset最近发布了1.0.1版本,这也是1.0版本后的有一个重大的版本,Superset也会在以后有更多的改进。那么让我们来看一下最新的新功能吧。 用户体验 通过更简单,更直观的UI将Superset用户体验提升到了新的水平。 现在可以使用缩略图网格的方式来显示图表和仪表板列表
阅读全文
摘要:Atlas的权限控制非常的丰富,本文将进行其支持的各种权限控制的介绍。 在atlas-application.properties配置文件中,可以设置不同权限的开关。 atlas.authentication.method.kerberos=true|false atlas.authenticati
阅读全文
摘要:Atlas集成Hive 在安装好Atlas以后,如果想要使用起来,还要让Atlas与其他组件建立联系。 其中最常用的就是Hive。 通过Atlas的架构,只要配置好Hive Hook ,那么每次Hive做任何操作就会写入Kafka从而被atlas接收。 并在Atlas中已图的形式展示出来。 Hive
阅读全文
摘要:在完成Atlas编译以后,就可以进行Atlas的安装了。Atlas的安装主要是安装Atlas的Server端,也就Atlas的管理页面,并确保Atlas与Kafka Hbase Solr等组件的集成。 Atlas的系统架构如下,在确保 底层存储与UI界面正常后,之后就可以进行与Hive等组件的集成调
阅读全文
摘要:为什么要做数据治理? 业务繁多,数据繁多,业务数据不断迭代。人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期很难维护。 在大数据研发中,原始数据就有着非常多的数据库,数据表。 而经过数据的聚合以后,又会有很多的维度表。如果想要对这些数据做好管理,光用文字、文档等东西是不够的,必须用图。 A
阅读全文
摘要:数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。 大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分
阅读全文
摘要: 获取PDF版本 请关注“实时流式计算” 后台回复 “flink1015”
阅读全文
摘要:对于经常使用Kafka的同学,拥有一个炫酷又实用的监控系统是非常有必要的。可以实时的监控数据流的情况,了解实时数据流的变化。 Kafka Eagle Kafka Eagle是一个监控系统,监控Kafka群集以及偏移量,消费者等等。 通过Kafka Eagle可以看到当前的消费者组,对于每个组,他们正
阅读全文
摘要:Superset的图表是非常炫酷的,但是原来的版本只能在web端查看,而最新的0.37版本,可以将图表截图直接发送成邮件,非常的方便。 本文将详细介绍Superset 0.37 定时邮件功能。安装过程遇到的任何问题请关注 “实时流式计算” 随时与我联系。所有的离线安装包已经整理好,请后台回复 “su
阅读全文
摘要:刚刚美国商务部忽然发布了这则新闻,为了回应特朗普2020年8月6号的行政令,称这些应用程序存在安全威胁。 禁令中称,自2020年9月20日起,美国政府将: 1 禁止通过美国在线移动应用程序商店分发或维护 微信或TikTok移动应用程序,组成代码或应用程序更新的任何服务; 2 禁止通过微信提供的在美国
阅读全文