Database - 随笔分类 - 冬色

Bigtable:结构化数据的分布式存储系统

摘要：Bigtable最初是谷歌设计用来存储大规模结构化数据的分布式系统，其可以在数以千计的商用服务器上存储高达PB级别的数据量。开源社区根据Bigtable的设计思路开发了 "HBase" 。其优势在于提供了高效的随机读写，缺陷在于不（原生）支持类SQL的数据分析。 Bigtable的设计目标是：适应性阅读全文

posted @ 2018-07-13 23:03 冬色阅读(1893) 评论(0) 推荐(0)

HDFS的几点改进

摘要：HDFS(Hadoop Distributed File System)是一个运行在商用机器上面的分布式文件系统，其设计思想来自于google著名的Google File System论文。 HDFS的设计目标：为何产生HDFS？由于数据量的急剧增大，原有的单机多磁盘因为速度，存储量等原因，已经远阅读全文

posted @ 2018-07-13 23:02 冬色阅读(877) 评论(0) 推荐(0)

Hadoop中一些重要概念简要总结

摘要：Hadoop是一个利用大规模计算机集群，可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。主要特点：1.高容错性；2.高吞吐量访阅读全文

posted @ 2018-07-13 22:53 冬色阅读(278) 评论(0) 推荐(0)

Hadoop中重要概念简要总结

摘要：Hadoop是一个利用大规模计算机集群，可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。主要特点：1.高容错性；2.高吞吐量访阅读全文

posted @ 2018-07-13 22:47 冬色阅读(273) 评论(0) 推荐(0)

Hadoop分布式文件系统

摘要：在一个经典的数据架构中，Hadoop是处理复杂数据流的核心。数据从各种系统中收集而来，并汇总导入到Hadoop分布式文件系统HDFS中，然后通过MapReduce或者其它基于MapReduce封装的语言如Hive,Pig等进行处理，将处理后的数据导出即可。具体例子而言，如果一个大型网站需要做网站点击阅读全文

posted @ 2018-07-13 22:45 冬色阅读(456) 评论(0) 推荐(0)

Spark基本原理

摘要：Hadoop和Spark关系 Spark比Hadoop快的原因：Hadoop在MapReduce后会将结果写入磁盘，第二次MapReduce再取出，Spark去除了两次运算间多余的IO消耗，直接将数据缓存在内存中。 Spark运行原理提交作业启动Driver进程申请资源，即Executor进程阅读全文

posted @ 2018-07-13 21:47 冬色阅读(417) 评论(0) 推荐(0)

SQL总结

摘要：本文作为SQL语句快速复习之用 SQL基础 1. 表具有一些特性，这些特性定义了数据在表中如何存储，包含存储什么样的数据，数据如何分解，各部分信息如何重命名等信息，描述表的这组信息的就是所谓的 2. SQL中，即使不一定需要，加上分号也没有坏处 3. SQL 不区分大小写，但是表名，列名和值可能有阅读全文

posted @ 2018-07-13 21:46 冬色阅读(127) 评论(0) 推荐(0)

冬色

GitHub: https://github.com/cnlinxi

随笔分类 - Database

公告