文章分类 - 大数据相关 / 大数据平台相关
摘要:来源于:https://mp.weixin.qq.com/s/YAntwK1oQ1FGN6dFtlTzpQ 2023年1月4日,在第五届“数据资产管理大会”上,《数据资产管理实践白皮书(6.0版)》正式发布,由中国信息通信研究院云计算与大数据研究所副所长魏凯进行解读。 《数据资产管理实践白皮书》是大
阅读全文
摘要:Apache Doris
阅读全文
摘要:Apache Doris
阅读全文
摘要:来源于 公众号 大数据肌肉猿 https://mp.weixin.qq.com/s/4eEJsNPl6TbCV-zhy5Z3hw 01 数据分类分级提出的背景 数据的价值 1.数据爆炸时代,数据量呈指数级增长 我们要如何看待数据这个话题。数据大爆炸已经成为了一个趋势,随着数字化转型的步伐逐步加快,数
阅读全文
摘要:转载于 大鱼的数据人生 公众号 https://mp.weixin.qq.com/s/IeFJSTgGZb4K16VeVuKL6w 数字化时代,企业需要知道它们拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业
阅读全文
摘要:https://mp.weixin.qq.com/s/qRP6dgZcGJFVW6f3t68W_w 大鱼的数据人生 2022-09-14 07:30 发表于浙江 大鱼的数据人生 我是大鱼先生,CDO,跟你分享有关数据的一切! 56篇原创内容 公众号 数据中台到底是什么?几年过去了,也一直众说纷纭。笔
阅读全文
摘要:来源于 https://www.zhangshilong.cn/work/215675.html Kettle是一款知名的开源ETL工具,基于java编写而成,可以在Windows、Linux、Unix等跨平台运行,数据抽取高效稳定。 Kettle官方地址下载:由于Data Integration官
阅读全文
摘要:来源于 https://blog.csdn.net/hr787753/article/details/78667472 重要脚本模板 值得参考 #!/bin/bash # # 程序名称: hive的shell脚本 # 功能描述: 将book表与course等值连接,数据分区插入 # 输入参数: 运行
阅读全文
摘要:来源于 https://help.aliyun.com/document_detail/117432.html 数据层次的划分 数据分类架构 数据处理流程架构 数据划分及命名空间约定 数据模型 本文为您介绍数据模型架构规范。 声明 本文以及后续章节中介绍的非功能性规范均为建议性规范,产品功能无强制,
阅读全文
摘要:来源于 https://www.aboutyun.com/thread-19977-1-1.html hive常见错误汇总 1安装与启动1.1 Hive安装失败报register service defaultUser failed. 版本加入kerberos互信机制后,变更hive的默认用户为hi
阅读全文
摘要:本文是徐桢虎在线直播中主题《数据中台初探与应用实践》内容整理。 — 1 — 为什么需要数据中台 当企业发展到一定规模时,数据是否能够创造价值显得尤为重要。如果没有从业务的角度对数据进行规划,再多的数据也没有用。一个企业业务与数据双中台的战略地位是相辅相成的,需要打造数据与业务的闭环。 数据增值:对数
阅读全文
摘要:来源于 https://www.cnblogs.com/yxwkf/p/5180451.html Hive实现oracle的Minus函数 在Oracle中minus运算的主要功能是: 在进行两个表格或者两个查询结果的时候,返回在第一个表格/查询结果中与第二个表格/查询结果不同样的记录。 结果不同样
阅读全文
摘要:来源于 https://www.cnblogs.com/datacloud/p/3588120.html 4.3 抽样(Sampling) 用基于MapReduce的程序来处理TB级的数据集,要花费的时间可能是数以小时计。仅仅是优化代码是很难达到良好的效果。 在开发和调试代码的时候,没有必要处理整个
阅读全文
摘要:来源于 https://www.jianshu.com/p/f5f0dc99d5ab DataX3.0离线同步工具介绍 一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等
阅读全文
摘要:来源于 https://www.cnblogs.com/jiangbei/p/9430476.html 一、概述 1.是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBas
阅读全文
摘要:来源于 https://blog.csdn.net/u010900284/article/details/83541101 一个小型的网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构、性能的要求都很简单。随着互联网业务的不断
阅读全文
摘要:来源于 https://www.jianshu.com/p/938d2a3a055c 背景 MapReduce不能满足大数据快速实时adhoc查询计算的性能要求,Facebook2012年开发,2013年开源 是什么 基于内存的并行计算,Facebook推出的分布式SQL交互式查询引擎 多个节点管道
阅读全文
摘要:来源于 https://zhuanlan.zhihu.com/p/60988746 sqoop虽说只是一个导数据的小工具而已,但是莫名感觉喜欢用啊,不知道为什么感觉在hadoop里面sqoop挺不受重视的,几年才一个大版本,1.99算是2.X版本的,这几天刷刷我sqoop党的存在感,找了一个sqoo
阅读全文
摘要:来源于 https://www.jianshu.com/p/2463b2f057d0 导读:数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。 最开始的时候,每个应用程序会产生、存储大量数据,而这些数据并不
阅读全文
摘要:来源于 https://blog.csdn.net/JENREY/article/details/84873874 1、spark是基于内存进行数据处理的,MapReduce是基于磁盘进行数据处理的 MapReduce的设设计:中间结果保存在文件中,提高了可靠性,减少了内存占用。但是牺牲了性能。Sp
阅读全文