随笔分类 -  Hadoop/Spark

摘要:介绍 MLlib支持存储在单机上的local vectors和metrices,也支持分布式的matrics(背后通过一或多个RDD实现)。 local vectors和local matrices都是简单数据类型,作为公共接口使用。 底层的线性算法操作则由Breeze和jblas来实现。MLlib 阅读全文
posted @ 2019-05-13 16:54 shawshawwan 阅读(912) 评论(0) 推荐(0)
摘要:Spark 学习笔记 (二): 深入Spark计算引擎 先来回顾一下Spark的程序运行架构: 对于任何一个Spark程序,有且仅有一个 ,其实一个 就对应了一个 ; 一个 就是一个进城,运行在一个节点上,程序的main函数就运行在 上; main函数通过分析程序,将程序转化成一些列 ,然后分发到 阅读全文
posted @ 2019-02-12 15:35 shawshawwan 阅读(1979) 评论(0) 推荐(0)
摘要:Spark 学习笔记 (一): 初探Spark 程序设计之RDD 本文主要介绍Spark基本数据结构RDD的原理和使用,以及搭建了基于Docker的Spark集群开发测试环境,最后给出了几个实际程序例子,算是Saprk入了门:) 一、 RDD RDD是Spark中最核心的概念 1.初识RDD Re 阅读全文
posted @ 2019-01-16 21:56 shawshawwan 阅读(754) 评论(0) 推荐(1)
摘要:九章微课 1.最高频 K 项问题 前导问题:前k大数 在一个整数数组中,找最大的k个数 这个问题有在线和离线两种解法: public class topK { /** * @param nums: an integer array * @param k: An integer * @return: 阅读全文
posted @ 2018-02-19 23:12 shawshawwan 阅读(418) 评论(0) 推荐(0)