8.1 Spark MLlib简介

一、什么是机器学习

机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。

机器学习强调三个关键词:算法、经验、性能

 

 

二、基于大数据的机器学习

(1)map-reduce

(2)Spark

 

三、Spark 机器学习库MLlib

Spark 机器学习库从1.2 版本以后被分为两个包:

  1. spark.mllib 包含基于RDD的原始算法API。Spark MLlib 历史比较长,在1.0 以前的版本即已经包含了,提供的算法实现都是基于原始的 RDD
  2. spark.ml 则提供了基于DataFrames 高层次的API,可以用来构建机器学习工作流(PipeLine)。ML Pipeline 弥补了原始 MLlib 库的不足,向用户提供了一个基于 DataFrame 的机器学习工作流式 API 套件

posted @ 2019-12-14 21:50  nxf_rabbit75  阅读(309)  评论(0编辑  收藏  举报