摘要:
这是CS100.1x第一个提交的作业,是给我们测试用的。相关ipynb文件见我 "github" 。本来没什么好说的。我在这里简单讲一下,后面会更详细的讲解。主要分成5个部分。 Part 1: Test Spark functionality Parallelize, filter, and red 阅读全文
摘要:
起因 大数据时代 大数据最近太热了,其主要有数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity)4个特点,合起来被称为4V。 大数据中的数据量非常巨大,传统的关系型数据库已经无法满足对大数据的处理要求。此时,分布式计算应运而生 阅读全文