03 2020 档案

摘要:spark shuffle参数调优 spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才 阅读全文
posted @ 2020-03-26 23:09 DB乐之者 阅读(943) 评论(0) 推荐(0) 编辑
摘要:一、Hbase的六大特点: (1)、表大:一个表可以有数亿行,上百万列。 (2)、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态增加,同一个表中的不同行的可以有截然不同的列。 (3)、面向列:HBase是面向列的的存储和权限控制,列族独立索引。 (4)、稀疏:空(null)列并不占 阅读全文
posted @ 2020-03-26 19:53 DB乐之者 阅读(2697) 评论(0) 推荐(0) 编辑
摘要:背景 在 SQL Server 2012 和 2014 中,初始化 SQL Server Always On 可用性组中的次要副本的唯一方法是使用备份、复制和还原。 在一个高可用组里面添加一个数据库需要很多手动任务和一些必要条件。需要完成的这些工作中,有一些是有些困难的,比如: 我们需要从主副本中备 阅读全文
posted @ 2020-03-26 19:07 DB乐之者 阅读(533) 评论(1) 推荐(0) 编辑
摘要:1) 窗口函数 Lag, Lead, First_value,Last_valueLag, Lead、这两个函数为常用的窗口函数,可以返回上下数据行的数据. LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值, 与LAG 阅读全文
posted @ 2020-03-25 17:20 DB乐之者 阅读(1815) 评论(0) 推荐(0) 编辑
摘要:一、数据仓库建模的意义 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。 数据模型就是数据组织和存储 阅读全文
posted @ 2020-03-25 17:16 DB乐之者 阅读(436) 评论(0) 推荐(0) 编辑
摘要:Spark dataframe api简介 spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。合 阅读全文
posted @ 2020-03-23 17:35 DB乐之者 阅读(275) 评论(0) 推荐(0) 编辑
摘要:Spark DataFrame基础操作 创建SparkSession和SparkContext val spark = SparkSession.builder.master("local").getOrCreate() val sc = spark.sparkContext 从数组创建DataFr 阅读全文
posted @ 2020-03-23 17:22 DB乐之者 阅读(455) 评论(0) 推荐(0) 编辑
摘要:1. DataFrame 本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。 2. 什么是 Spark SQL DataFrame? 从Spark1.3.0版本开始,DF 阅读全文
posted @ 2020-03-16 12:05 DB乐之者 阅读(4862) 评论(0) 推荐(0) 编辑
摘要:什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe 阅读全文
posted @ 2020-03-11 09:52 DB乐之者 阅读(432) 评论(0) 推荐(0) 编辑
摘要:Data Vault 简介 Data Vault 2.0 不仅是建模技术,也提供了一整套数据仓库项目的方法论。它能提供一套非常可行的方案来满足数据仓库项目中对于历史轨迹和审核两个方面的需求。 多年来,商业智能(BI)项目一直并将继续在瀑布模型下运行。它是由每个阶段的长时间延伸的序列定义的,该序列需要 阅读全文
posted @ 2020-03-09 16:07 DB乐之者 阅读(5094) 评论(1) 推荐(0) 编辑
摘要:一、数据仓库的相关概念 1.什么是数据仓库 数据仓库一种面向分析的环境,是一种把相关的各种数据转换成有商业价值的信息的技术。 数据仓库理论的创始人W.H.Inmon在其《Building the Data Warehouse》一书中,给出了数据仓库的四个基本特征:面向主题,数据是集成的,数据是不可更 阅读全文
posted @ 2020-03-03 13:02 DB乐之者 阅读(3476) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示