08 2023 档案

摘要:这周开始了解spark技术 Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一 Spark 优势及特点 优秀的数据模型和丰富计算抽象首先看看MapReduce,它提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如 HDFS),所 阅读全文
posted @ 2023-08-29 11:27 哈哈哈老先生 阅读(9) 评论(0) 推荐(0) 编辑
摘要:今天又复习了关于MapReduce的知识 先看一下什么是MapReduce MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。 MapReduce提供了2个编程接口: Map Reduce 其中 Map功能接口提供了“分散”的功能, 由服务器分布式 阅读全文
posted @ 2023-08-20 21:45 哈哈哈老先生 阅读(54) 评论(0) 推荐(0) 编辑
摘要:HDFS是Hadoop三大组件(HDFS、MapReduce、YARN)之一 全称是:Hadoop Distributed File System(Hadoop分布式文件系统) 是Hadoop技术栈内提供的分布式数据存储解决方案 可以在多台服务器上构建存储集群,存储海量的数据 阅读全文
posted @ 2023-08-17 09:56 哈哈哈老先生 阅读(24) 评论(0) 推荐(0) 编辑
摘要:为什么需要分布式存储? 数据量太大,单机存储能力有上限,需要靠数量来解决问题 数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。 分布式组合在一起可以达到1+1>2的效果 1. 分布式系统常见的组织形式? 去中心化模式:没有明确中心,大家协调工作 中心化模式:有明确的中心,基于中 阅读全文
posted @ 2023-08-15 18:41 哈哈哈老先生 阅读(91) 评论(0) 推荐(0) 编辑
摘要:1. 什么是计算、分布式计算? 计算:对数据进行处理,使用统计分析等手段得到需要的结果 分布式计算:多台服务器协同工作,共同完成一个计算任务 2. 分布式计算常见的2种工作模式 分散->汇总 (MapReduce就是这种模式) 中心调度->步骤执行 (大数据体系的Spark、Flink等是这种模式) 阅读全文
posted @ 2023-08-14 22:40 哈哈哈老先生 阅读(38) 评论(0) 推荐(0) 编辑
摘要:Hive的函数分为两大类:内置函数(Built-in Functions)、用户定义函数UDF(User-Defined Functions): 阅读全文
posted @ 2023-08-13 13:53 哈哈哈老先生 阅读(12) 评论(0) 推荐(0) 编辑
摘要:Apache Hive其2大主要组件就是:SQL解析器以及元数据存储, 如下图。 元数据存储 通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 -- Hive提供了 Metastore 服务进 阅读全文
posted @ 2023-08-12 10:23 哈哈哈老先生 阅读(14) 评论(0) 推荐(0) 编辑
摘要:进行随机抽样,本质上就是用TABLESAMPLE函数 语法1,基于随机分桶抽样: SELECT ... FROM tbl TABLESAMPLE(BUCKET x OUT OF y ON(colname | rand())) y表示将表数据随机划分成y份(y个桶) x表示从y里面随机抽取x份数据作为 阅读全文
posted @ 2023-08-11 21:57 哈哈哈老先生 阅读(167) 评论(0) 推荐(0) 编辑
摘要:分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式 但和分区不同,分区是将表拆分到不同的子文件夹中进行存储,而分桶是将表拆分到固定数量的不同文件中进行存储。 阅读全文
posted @ 2023-08-10 20:16 哈哈哈老先生 阅读(10) 评论(0) 推荐(0) 编辑
摘要:在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易了 同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天,或者每小时进行切分成一个个的小的文件,这样去操作小的文件就会容易得多了。 如图,一个典型的按月份分 阅读全文
posted @ 2023-08-09 11:45 哈哈哈老先生 阅读(35) 评论(0) 推荐(0) 编辑
摘要:分布式SQL计算 阅读全文
posted @ 2023-08-07 13:49 哈哈哈老先生 阅读(3) 评论(0) 推荐(0) 编辑
摘要:HiveServer2是一个服务接口,能够允许远程的客户端去执行SQL请求且得到检索结果。HiveServer2的实现,依托于Thrift RPC,是HiveServer的提高版本,它被设计用来提供更好的支持对于open API例如JDBC和ODBC。HiveServer是一个可选的服务,只允许一个 阅读全文
posted @ 2023-08-06 09:23 哈哈哈老先生 阅读(7) 评论(0) 推荐(0) 编辑
摘要:天道中关于格律诗乐器的生产流程,如何控制质量 产品规划从本质上来说是一种推演能力,根据第一性原则推演产品从0到1、从1到100的过程。 如果说一款产品是一个点的话,那产品规划便是通过构造一种系统能力以达成企业最终的商业目的。 第一性原理是埃隆·马斯克非常推崇的一种思维模型,笔者认为企业愿景对应的便是 阅读全文
posted @ 2023-08-02 08:51 哈哈哈老先生 阅读(35) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示