大数据应用技术课程实践--选题与实践方案

一、选题与意义

1.Hadoop平台应用

2.Kaggle分析数据项目

简要说明理由与意义。

答:选择Kaggle分析数据项目

  项目:房价预测(House Prices)

  理由与意义:由于第一题Hadoop环境搭建困难重重,加上硬件设备需要500G+8G以上,故选择第二题。选择房价预测的目的是房价这方面是跟我们生活比较符合,有很高的项目价值。

 

 

 

二、实践方案

简要说明理由。

答:使用annconda环境进行编码

 

 

三、实践任务分解

根据所选的题目,明确实验步骤,分解任务到每天。

第一、二天(6.23,6.24):

  数据导入与预处理:

  1. 模块导入
  2. 数据导入
  3. 特征处理
  4. 异常处理等 

 

第三、四天(6,24-6,25):

  特征处理:

  1. 数据集连接
  2. 缺失数据分析
  3. 数据相关性
  4. 重新划分数据集等

 

第五------八天(6.26-6.30):

  建模:

  1. 交叉验证
  2. 建立基础模型

 

 

  模型训练与测试:

  1. 定义评估模型
  2. 模型训练、预测、评估
  3. 生成结果文件

 

 第九天(7.1):

  1、整理实验报告及相关文档

  2、完成课程实践报告

 

四、实践计划

按任务分解撰写计划表,每天按计划表开展工作。

第天根据实际情况更新计划表,有必要时调整。

 

1.

 

大数据平台安装软件:

链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m

虚拟机镜像文件:

链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
提取码:q0lt

 

2.

https://www.kaggle.com/competitions

 

说明:

  • 个人项目,不要求组队,确实需要组队的说明理由。
  • 边操作边记录;
  • 每天完成当天文档;
  • 最后综合成课程实践报告。
posted @ 2020-06-23 19:23  ling9709  阅读(218)  评论(0编辑  收藏  举报