随笔分类 - 【1419大数据】
摘要:数字时代到来之后,企业经营的各个阶段都可以被记录下来,产品销售的各个环节也被记录下来,客户的消费行为和网上行为都被采集下来。企业拥有了多维度的数据,包括产品销售数据、客户消费数据、客户行为数据、企业运营数据等。拥有数据之后,数据分析成为可能。典型的数据分析案例如沃尔玛啤酒和尿布、蛋挞和手电筒,Tar
阅读全文
摘要:2017年时序数据库忽然火了起来。开年2月Facebook开源了beringei时序数据库;到了4月基于PostgreSQL打造的时序数据库TimeScaleDB也开源了,而早在2016年7月,百度云在其天工物联网平台上发布了国内首个多租户的分布式时序数据库产品TSDB。时序数据库作为物联网方向一个
阅读全文
摘要:1.基本概念 时序数据库(Time Series Database)是用于存储和管理时间序列数据的专业化数据库。时序数据库特别适用于物联网设备监控和互联网业务监控场景。 下面介绍下时序数据库的一些基本概念(不同的时序数据库称呼略有不同)。 1.1 度量(metric) 监测数据的指标,例如风力和温度
阅读全文
摘要:目前,Hadoop还只是数据仓库产品的一个补充,和数据仓库一起构建混搭架构为上层应用联合提供服务。 Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。 (1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode
阅读全文
摘要:第三届~第八届Hbase Meetup资料分享
阅读全文
摘要:1.HBase简介1.1 Hbase是什么HBase是一种构建在HDFS之上的分布式、面向列、多版本、非关系型的数据库,是Google Bigtable 的开源实现。 在需要实时读写、随机访问超大规模数据集时,可以使用HBase。 1.2 HBase特点 大:一个表可以有上亿行,上百万列。 面向列:
阅读全文
摘要:如何在保证存储量的情况下,又能保证数据的检索速度。 HBase提供了完善的海量数据存储机制,Solr、SolrCloud提供了一整套的数据检索方案。 使用HBase搭建结构数据存储云,用来存储海量数据;使用SolrCloud集群用来搭建搜索引擎,将要查找的结构化数据的ID查找出来,只配置它存储ID。
阅读全文
摘要:1.操作系统选择 Hadoop产品是由Java语言开发的,所以推荐的是Linux操作系统,理由很简单开源免费,推荐的操作系统CentOS。 CentOS是一个基于Red Hat 企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本。 CentOS两年发行一次新版本,每个版本都会
阅读全文
摘要:1.Sqoop是什么 Sqoop:SQL-to-Hadoop,传统数据库与Hadoop间数据同步工具。(MySQL、Oracle <==> HDFS、HBase、Hive) Sqoop 的核心设计思想是利用 MapReduce 分布式批处理,加快了数据传输速度,保证了容错性。也就是说 Sqoop 的
阅读全文
摘要:“下一代大数据处理引擎王者” Apache Flink 它既能保证数据一致性“Exactly Once",又能实时快速的处理海量数据。与生俱来的 Watermark 功能让它能对复杂数据乱序场景应对自如,它充分体现了“批”、“流”一体的完美结合同时又代表着“流”、“表”二象性的和谐统一。 两种数据集
阅读全文
摘要:MapReduce MapReduce程序从磁盘读取输入数据,把数据分解成键/值对,经过混洗、排序、归并等数据处理后产生输出,并将最终结果保存在磁盘。Map阶段和Reduce阶段的结果均要写磁盘,这大大降低了系统性能。也是由于这个原因,MapReduce大都被用于执行批处理任务。Map阶段和Redu
阅读全文