摘要:
首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。 其实默认为3个副本已经够用了,设置太多也没什么用。 一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文 阅读全文
摘要:
《实时分析系统(HIVE/HBASE/IMPALA)浅析》《MPP DB 是 大数据实时分析系统 未来的选择吗?》《一套数据,多种引擎(impala/Hive/kylin)》《一套数据,多种引擎续 两种数据格式(Parquet/ORCfile)浅析》有兴趣可以看看。 阅读全文
摘要:
转自:http://data.qq.com/article?id=817 三、Hermes设计概要 架构描述 系统核心进程均采用分散化设计,根据业务发展需求,可随意扩缩容机器; 周期性数据直接通过tdw处理落地到分布式文件系统; 实时数据加载采用先落地本地磁盘,最终落地到分布式文件系统,最终都由调度 阅读全文
摘要:
对于hbase当前noSql数据库的一种,最常见的应用场景就是采集的网页数据的存储,由于是key-value型数据库,可以再扩展到各种key-value应用场景,如日志信息的存储,对于内容信息不需要完全结构化出来的类CMS应用等。注意hbase针对的仍然是OLTP应用为主。 对于hive主要针对的是 阅读全文
摘要:
Amazon Redshift 是一种快速且完全托管的 PB 级数据仓库,使您可以使用现有的商业智能工具经济高效地轻松分析您的所有数据。从最低 0.25 USD 每小时 (不承担任何义务) 直到每年每 TB 1,000 USD (PB 级),成本不到传统解决方案的十分之一。客户通常进行 3 倍压缩, 阅读全文
摘要:
为什么会有HybridDB的诞生?它经历了怎样的研发历程?它的应用场景和情况是怎样的?带着这些问题,InfoQ对阿里云的数据库专家兼Postgres中国社区/中国用户会主席萧少聪先生进行了采访,以下文字整理自采访文稿。 业界早期使用数据时,尤其是OLTP场景下,通常选择非分布式的关系型数据库,如My 阅读全文
摘要:
12 月 9 日,阿里云宣布数据库产品 HybridDB 正式商业化。 HybridDB(ApsaraDB HybridDB)是一款在线 MPP 大规模并行处理数据仓库的服务。它基于 Pivotal 公司的开源数据库项目 Greenplum Database 开发,并由阿里云数据库团队在云计算架构下 阅读全文
摘要:
RightScale最近发布了他们的年度云报告(RightScale 2017云现状报告,RightScale 2017 State of the Cloud Report),这份报告包括了云计算在采用和实际使用方面的现状和趋势,并且与去年的结果进行了对比。 我们提取了这个调查报告的部分要点: 私有 阅读全文