2017 年 2月 23 日随笔档案 - 绿茵好莱坞

第五章大数据平台与技术第12讲大数据处理平台Spark

摘要： Spark支持多种的编程语言对比scala和Java编程上节课的计数程序。相比之下，scala简洁明了。 Hadoop的IO开销大导致了延迟高，也就是说任务和任务之间涉及到I/O操作。前一个任务完成之前没有写入硬盘，下一个任务无法从硬盘当中获取数据，从而导致了这个高延迟。 Spark与Hadoop 阅读全文

posted @ 2017-02-23 20:44 绿茵好莱坞阅读(188) 评论(0) 推荐(0) 编辑

第五章大数据平台与技术第11讲 MapReduce编程

摘要：在大规模的数据当中，需要分发任务，需要进行分布式的并行编程。Hadoop这样一种开源的大数据分析平台。 Map阶段 Reduce阶段：相同的键把它聚集到一起之后，然后通过Reduce方式把相同的键聚集的元素进行某种运算。比如说累加运算，比如说累乘运算。两个步骤：一、输入数据，一行一行；二、产生键值阅读全文

posted @ 2017-02-23 19:58 绿茵好莱坞阅读(157) 评论(0) 推荐(0) 编辑

互联网大规模数据分析技术（自主模式）第五章大数据平台与技术第10讲大数据处理平台Hadoop

摘要：大规模的数据计算对于数据挖掘领域当中的作用。两大主要挑战：第一、如何实现分布式的计算第二、分布式并行编程。Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题。这是谷歌的一个最基本的计算模式，并且对于大规模数据的分析和处理是一种非常有效的方法。以下四个方面了解大数据处理平台Had 阅读全文

posted @ 2017-02-23 14:20 绿茵好莱坞阅读(283) 评论(0) 推荐(0) 编辑

大数据系统基础(自主模式) 2.1大数据和云计算关系概述

摘要：数量大做海量的计算和存储算的速度快处理速度快数据产生的地方和数据处理的地方往往不是同一个地方做一个智能城市的应用数据产生是在业外。比如说由各个地方,由传感器采集来的,那数据处理是在数据中心里面进行的,如果能把收集到的数据快速传输到数据中心里头,这需要一个很快的广域网的数据传输。所以这个也阅读全文

posted @ 2017-02-23 09:41 绿茵好莱坞阅读(205) 评论(0) 推荐(0) 编辑

第五章大数据平台与技术第12讲大数据处理平台Spark

第五章大数据平台与技术第11讲 MapReduce编程

互联网大规模数据分析技术（自主模式）第五章大数据平台与技术第10讲大数据处理平台Hadoop

大数据系统基础(自主模式) 2.1大数据和云计算关系概述

导航

公告

第五章 大数据平台与技术 第12讲 大数据处理平台Spark

第五章 大数据平台与技术第11讲 MapReduce编程

互联网大规模数据分析技术（自主模式）第五章 大数据平台与技术 第10讲 大数据处理平台Hadoop

大数据系统基础(自主模式) 2.1大数据和云计算关系概述

导航

公告

第五章大数据平台与技术第12讲大数据处理平台Spark

第五章大数据平台与技术第11讲 MapReduce编程

互联网大规模数据分析技术（自主模式）第五章大数据平台与技术第10讲大数据处理平台Hadoop