摘要: 这是CS100.1x第一个提交的作业,是给我们测试用的。相关ipynb文件见我 "github" 。本来没什么好说的。我在这里简单讲一下,后面会更详细的讲解。主要分成5个部分。 Part 1: Test Spark functionality Parallelize, filter, and red 阅读全文
posted @ 2017-04-02 22:04 james+zhao 阅读(586) 评论(0) 推荐(0) 编辑
摘要: 起因 大数据时代 大数据最近太热了,其主要有数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity)4个特点,合起来被称为4V。 大数据中的数据量非常巨大,传统的关系型数据库已经无法满足对大数据的处理要求。此时,分布式计算应运而生 阅读全文
posted @ 2017-04-02 20:00 james+zhao 阅读(376) 评论(0) 推荐(0) 编辑