随笔分类 - Database
摘要:Bigtable最初是谷歌设计用来存储大规模结构化数据的分布式系统,其可以在数以千计的商用服务器上存储高达PB级别的数据量。开源社区根据Bigtable的设计思路开发了 "HBase" 。其优势在于提供了高效的随机读写,缺陷在于不(原生)支持类SQL的数据分析。 Bigtable的设计目标是:适应性
阅读全文
摘要:HDFS(Hadoop Distributed File System)是一个运行在商用机器上面的分布式文件系统,其设计思想来自于google著名的Google File System论文。 HDFS的设计目标:为何产生HDFS? 由于数据量的急剧增大,原有的单机多磁盘因为速度,存储量等原因,已经远
阅读全文
摘要:Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。 主要特点:1.高容错性;2.高吞吐量访
阅读全文
摘要:Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。 主要特点:1.高容错性;2.高吞吐量访
阅读全文
摘要:在一个经典的数据架构中,Hadoop是处理复杂数据流的核心。数据从各种系统中收集而来,并汇总导入到Hadoop分布式文件系统HDFS中,然后通过MapReduce或者其它基于MapReduce封装的语言如Hive,Pig等进行处理,将处理后的数据导出即可。具体例子而言,如果一个大型网站需要做网站点击
阅读全文
摘要:Hadoop和Spark关系 Spark比Hadoop快的原因:Hadoop在MapReduce后会将结果写入磁盘,第二次MapReduce再取出,Spark去除了两次运算间多余的IO消耗,直接将数据缓存在内存中。 Spark运行原理 提交作业 启动Driver进程 申请资源,即Executor进程
阅读全文
摘要:本文作为SQL语句快速复习之用 SQL基础 1. 表具有一些特性,这些特性定义了数据在表中如何存储,包含存储什么样的数据,数据如何分解,各部分信息如何重命名等信息,描述表的这组信息的就是所谓的 2. SQL中,即使不一定需要,加上分号也没有坏处 3. SQL 不区分大小写 ,但是表名,列名和值可能有
阅读全文