上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页
摘要: 1.概述 大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔 阅读全文
posted @ 2018-06-22 20:52 哥不是小萝莉 阅读(4091) 评论(2) 推荐(2) 编辑
摘要: 1.概述 在Kafka0.9版本之前,Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址,例如zk1:2181:zk2:2181,zk3:2181等。来获取存储在Zookeeper中的Kafka元数据信息。拿到Kafka Broker地址后,连接到Kafk 阅读全文
posted @ 2018-06-17 03:08 哥不是小萝莉 阅读(18517) 评论(3) 推荐(3) 编辑
摘要: 1.概述 接着上一篇博客的内容,继续介绍Hadoop3的其他新特性。其内容包含:优化Hadoop Shell脚本、重构Hadoop Client Jar包、支持等待Container、MapReduce任务级别本地优化、支持多个NameNode、部分默认服务端口被改变、支持文件系统连接器、DataN 阅读全文
posted @ 2018-05-12 12:55 哥不是小萝莉 阅读(4945) 评论(2) 推荐(3) 编辑
摘要: 1.概述 目前从Hadoop官网的Wiki来看,稳定版本已经发行到Hadoop2.9.0,最新版本为Hadoop3.1.0,查阅JIRA,社区已经着手迭代Hadoop3.2.0。那么,今天笔者就带着大家来剖析一下Hadoop3,看看它给我们带来了哪些新特性。 2. 内容 从功能上来说,Hadoop3 阅读全文
posted @ 2018-04-14 03:53 哥不是小萝莉 阅读(9536) 评论(0) 推荐(1) 编辑
摘要: 1.概述 Apache Ignite和Apache Arrow很类似,属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容,它统一了大数据领域各个生态系统的数据格式,避免了序列化和反序列化所带来的资源开销(能够节省80%左右的CPU资源)。今天来 阅读全文
posted @ 2018-03-11 02:42 哥不是小萝莉 阅读(14028) 评论(1) 推荐(2) 编辑
摘要: 1.概述 客户端读写数据是先从Zookeeper中获取RegionServer的元数据信息,比如Region地址信息。在执行数据写操作时,HBase会先写MemStore,为什么会写到MemStore。本篇博客将为读者剖析HBase MemStore和Compaction的详细内容。 2.内容 HB 阅读全文
posted @ 2018-02-10 17:21 哥不是小萝莉 阅读(2984) 评论(0) 推荐(1) 编辑
摘要: 1. 概述 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 2. 内容 在集成Kylin到CDH Hadoop环境中时,发现新版 阅读全文
posted @ 2018-01-13 15:45 哥不是小萝莉 阅读(4687) 评论(0) 推荐(2) 编辑
摘要: 1.概述 HBase的存储结构和关系型数据库不一样,HBase面向半结构化数据进行存储。所以,对于结构化的SQL语言查询,HBase自身并没有接口支持。在大数据应用中,虽然也有SQL查询引擎可以查询HBase,比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现,依然是调用了HB 阅读全文
posted @ 2017-12-10 12:21 哥不是小萝莉 阅读(3788) 评论(0) 推荐(2) 编辑
摘要: 1.概述 在HBase-1.1.0之前,HBase集群中资源都是全量的。用户、表这些都是没有限制的,看似完美实则隐患较大。今天,笔者就给大家剖析一下HBase的流量限制和表的负载均衡。 2.内容 也许有同学有疑问,为啥要做流量限制,无限制全量跑不是更好吗?举个例子,比如今天的双十一日,数据流量是非常 阅读全文
posted @ 2017-11-11 20:55 哥不是小萝莉 阅读(5184) 评论(0) 推荐(3) 编辑
摘要: 1.概述 在大数据应用场景中,处理数据分析方面,由于开发者的水平不一样,使用的编程语言也不尽相同,可能会涉及到R、Python、Java、Scala等,数据计算模型也估计不一样,可能涉及的有Spark、Hive、Flink、Kylin等等。本篇博客笔者给大家介绍的内容并不是告诉大家如何去使用。在《Z 阅读全文
posted @ 2017-10-15 03:26 哥不是小萝莉 阅读(5020) 评论(2) 推荐(4) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页