随笔分类 - [04].大数据
Spark,Hadoop,HDFS
摘要:`MLlib MLlib` 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 API。具体来说,主要包括以下几方面的内容: 1. 机器学习算法:常用的学习算法,如分类、回归、聚类和协同过滤; 2. 特征化工具:特征提取、转化、降维和特征选择
阅读全文
摘要:1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务。 在实际应用中,存在许多迭代式算法和交互式数据挖掘工具,这些应用场景的共同之处在于不同计算阶段之间
阅读全文
摘要:Spark 可以独立安装使用,也可以和 Hadoop 一起安装使用。在安装 Spark 之前,首先确保你的电脑上已经安装了 或者更高的版本。 Spark 安装 访问 "Spark 下载页面" ,并选择最新版本的 Spark 直接下载,当前的最新版本是 2.4.2 。下载好之后需要解压缩到安装文件夹中
阅读全文