6-25(1)
一、本次实习总任务:
(1)会应用数据分析基本方法
包括:聚类kmeans算法,分类线性判别分析算法LDA和logistics regression算法,回归分析最小二乘法、主成分分析(回归)、偏最小二乘算法
(2)会应用大数据服务的方法
技术点:
1)在Linux虚拟机上建立Hadoop集群
2)在Linux虚拟机上搭建Spark开发环境的方法
3)在linux虚拟上的Spark环境下应用数据分析算法,并将结果反馈到web应用软件中
4)一个信息系统中服务器端数据服务的组织过程和相关技术(不懂)
二、借助工具
(1)13级论文+程序(给予spark的协同过滤推荐算法)
(2)网上教程
三、自我计划
能把论文内容实现了这些学习目标就掌握了,所以工作要围绕论文做