2017年2月23日

第五章 大数据平台与技术 第12讲 大数据处理平台Spark

摘要: Spark支持多种的编程语言 对比scala和Java编程上节课的计数程序。相比之下,scala简洁明了。 Hadoop的IO开销大导致了延迟高,也就是说任务和任务之间涉及到I/O操作。前一个任务完成之前没有写入硬盘,下一个任务无法从硬盘当中获取数据,从而导致了这个高延迟。 Spark与Hadoop 阅读全文

posted @ 2017-02-23 20:44 绿茵好莱坞 阅读(187) 评论(0) 推荐(0) 编辑

第五章 大数据平台与技术第11讲 MapReduce编程

摘要: 在大规模的数据当中,需要分发任务,需要进行分布式的并行编程。Hadoop这样一种开源的大数据分析平台。 Map阶段 Reduce阶段:相同的键把它聚集到一起之后,然后通过Reduce方式把相同的键聚集的元素进行某种运算。比如说累加运算,比如说累乘运算。 两个步骤:一、输入数据,一行一行;二、产生键值 阅读全文

posted @ 2017-02-23 19:58 绿茵好莱坞 阅读(156) 评论(0) 推荐(0) 编辑

互联网大规模数据分析技术(自主模式)第五章 大数据平台与技术 第10讲 大数据处理平台Hadoop

摘要: 大规模的数据计算对于数据挖掘领域当中的作用。两大主要挑战:第一、如何实现分布式的计算 第二、分布式并行编程。Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题。这是谷歌的一个最基本的计算模式,并且对于大规模数据的分析和处理是一种非常有效的方法。以下四个方面了解大数据处理平台Had 阅读全文

posted @ 2017-02-23 14:20 绿茵好莱坞 阅读(282) 评论(0) 推荐(0) 编辑

大数据系统基础(自主模式) 2.1大数据和云计算关系概述

摘要: 数量大 做海量的计算和存储 算的速度快 处理速度快 数据产生的地方和数据处理的地方往往不是同一个地方 做一个智能城市的应用 数据产生是在业外。比如说由各个地方,由传感器采集来的,那数据处理是在数据中心里面进行的,如果能把收集到的数据快速传输到数据中心里头,这需要一个很快的广域网的数据传输。所以这个也 阅读全文

posted @ 2017-02-23 09:41 绿茵好莱坞 阅读(202) 评论(0) 推荐(0) 编辑

导航