《Python+Spark 2.0+Hadoop 机器学习与大数据实战 林大贵著》 ---啃书系列
本书主要在于复现内容,与一些小问题的解决,所以啃书过程也就重点放到实际动手上面。书本内容是2017年的东西,可能不是特别的新,所以本次啃书,会结合最新的版本来操作,最新的版本可能会遇到各种各样的问题,这也是本次啃书的灵魂所在。
站在巨人的肩膀上。
https://zh.b-ok.xyz/book/18333415/f9eb09
书籍pdf
第一章
本章主要介绍的是概念。有机器学习、Spark、RDD、DataFrame、Spark SQL等,以及Hadoop相关概念,这里不多赘述。
第二章 VirtualBOX虚拟机软件的安装
VirtualBOX的下载和安装
最新版本 vbox6.1
下载windows版本,100MB左右。
开始安装,这里与课本内容相同,界面为中文版本,不多赘述。
6.1版本的界面: