上一页 1 ··· 243 244 245 246 247 248 249 250 251 ··· 271 下一页
摘要: 简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术 阅读全文
posted @ 2017-02-01 22:48 bonelee 阅读(3885) 评论(0) 推荐(1) 编辑
摘要: 转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统 阅读全文
posted @ 2017-02-01 00:13 bonelee 阅读(10545) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/wh_springer/article/details/51842496 近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。 1 Hive基本原理 Hadoop是一个流行的开源框架,用来存储和处理商用硬件上的 阅读全文
posted @ 2017-01-31 23:57 bonelee 阅读(2064) 评论(0) 推荐(0) 编辑
摘要: 准备数据 计算过程 默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。mapper是hash,reducer是mergepartial。如果把hive 阅读全文
posted @ 2017-01-31 23:21 bonelee 阅读(4008) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/sn_zzy/article/details/43446027 SQL转化为MapReduce的过程 了解了MapReduce实现SQL基本操作之后,我们来看看Hive是如何将SQL转化为MapReduce任务的,整个编译过程分为六个阶段: Join的 阅读全文
posted @ 2017-01-31 23:04 bonelee 阅读(12600) 评论(0) 推荐(1) 编辑
摘要: 转自:http://blog.csdn.net/caomiao2006/article/details/52140993 由于GROUP BY 实际上也同样会进行排序操作,而且与ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数 阅读全文
posted @ 2017-01-31 22:48 bonelee 阅读(25772) 评论(0) 推荐(0) 编辑
摘要: 1、搜索引擎原理——从索引、搜索、facet底层原理看搜索引擎的本质2、开源搜索引擎分析——lucene(ES、Solr)、sphinx、wukong、bleve、poseidon、indextank-engine3、商业搜索引擎Splunk介绍——性能,架构,底层窥探4、提升CIS智能检索性能的方 阅读全文
posted @ 2017-01-26 17:58 bonelee 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.infoq.com/cn/articles/hadoop-ten-years-part03 转自: http://www.infoq.com/cn/articles/hadoop-ten-years-part03 编者按:Hadoop于2006年1月28日诞生,至今已有 阅读全文
posted @ 2017-01-26 17:54 bonelee 阅读(427) 评论(0) 推荐(0) 编辑
摘要: 摘自:http://www.36dsj.com/archives/75208 最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。 项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation) 阅读全文
posted @ 2017-01-26 17:09 bonelee 阅读(7681) 评论(0) 推荐(0) 编辑
摘要: 大数据分析处理架构图 数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性; 计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理 阅读全文
posted @ 2017-01-26 16:37 bonelee 阅读(6637) 评论(0) 推荐(0) 编辑
上一页 1 ··· 243 244 245 246 247 248 249 250 251 ··· 271 下一页