Hadoop/Spark - 随笔分类 - shawshawwan

Spark 学习笔记（三）： Spark MLlib库的数据类型

摘要：介绍 MLlib支持存储在单机上的local vectors和metrices，也支持分布式的matrics（背后通过一或多个RDD实现）。 local vectors和local matrices都是简单数据类型，作为公共接口使用。底层的线性算法操作则由Breeze和jblas来实现。MLlib 阅读全文

posted @ 2019-05-13 16:54 shawshawwan 阅读(912) 评论(0) 推荐(0)

Spark 学习笔记（二）：深入Spark计算引擎

摘要：Spark 学习笔记（二）：深入Spark计算引擎先来回顾一下Spark的程序运行架构：对于任何一个Spark程序，有且仅有一个，其实一个就对应了一个；一个就是一个进城，运行在一个节点上，程序的main函数就运行在上； main函数通过分析程序，将程序转化成一些列，然后分发到阅读全文

posted @ 2019-02-12 15:35 shawshawwan 阅读(1979) 评论(0) 推荐(0)

Spark 学习笔记（一）：初探Spark 程序设计RDD

摘要：Spark 学习笔记（一）：初探Spark 程序设计之RDD 本文主要介绍Spark基本数据结构RDD的原理和使用，以及搭建了基于Docker的Spark集群开发测试环境，最后给出了几个实际程序例子，算是Saprk入了门：）一、 RDD RDD是Spark中最核心的概念 1.初识RDD Re 阅读全文

posted @ 2019-01-16 21:56 shawshawwan 阅读(754) 评论(0) 推荐(1)

海量数据处理算法与面试题

摘要：九章微课 1.最高频 K 项问题前导问题：前k大数在一个整数数组中，找最大的k个数这个问题有在线和离线两种解法: public class topK { /** * @param nums: an integer array * @param k: An integer * @return: 阅读全文

posted @ 2018-02-19 23:12 shawshawwan 阅读(418) 评论(0) 推荐(0)

进击的算法

attaking algorithm & big data

随笔分类 - Hadoop/Spark