大数据竞赛(高职组)

大数据平台环境搭建(10 分)

  1. Docker基本操作
  2. Hadoop 完全分布式安装配置
  3. Spark安装配置
  4. Flink安装配置
  5. Hive 安装配置
  6. Kafka 安装配置
  7. Flume 安装配置
  8. ClickHouse 安 装 配 置
  9. HBase 安装配置
  10. 总结
    基于Docker 环境,进行大数据相关平台组件安装配置

数据采集(15 分)

  1. Spark 数据读取、数据存储
    使用Spark抽取MySQL指定数据表中的增量数据到ods层的指定的分区表中

  2. Flume数据采集
    使用Flume采集某端口的实时数据流并存入Kafka指定的Topic中

  3. Maxwell 数据采集
    使用Maxwell采集MySQL的binlog日志并存入Kafka指定的Topic中

实时数据处理(25分)

  1. 使用 Scala 语言基于 Flink 完成 Kafka 中的数据消费
  2. 将数据分发至 Kafka 的 dwd层中
  3. 在 HBase 中进行备份同时建立 Hive 外表
  4. 基于 Flink 完成相关的数据指标计算
  5. 将计算结果存入 Redis、ClickHouse 中

离线数据处理(20分)

  1. 使用Spark对ods层中的离线数据进行清洗,包括数据合并、去重、排序、数据类型转换等操作
  2. 将清洗完的数据存入dwd层中
  3. 根据dwd层的数据使用Spark对数据进行处理计算
  4. 将计算结果存入MySQL、HBase、ClickHouse中

数据可视化(15 分)

  1. 编写前端 Web 界面(不确定要不要,好像重点可视化就行了)
  2. 调用后台数据接口
  3. 使用 Vue.js、ECharts 完成数据可视化(柱状图、折线图、饼状图等)

综合分析报告(10 分)

  • 根据项目要求,完成综合分析报告编写。
  • 主要评分点包括能够按照赛项要求进行综合分析。

职业素养(5 分)

  • ???
    关于这我还能写什么?

个人总结

  1. 最好自行提前适应一下比赛提供的工具,别自己瞎搞,到时候发现完全不对劲,下图是官方 PDF 的截图。image
    image

  2. 因为比赛服务器组件环境是要自己搭建的,所以就自己从头弄吧,不过最好用他指定的版本号,避免出现不兼容等问题。image

  3. 大概的分工可以分为

    1. 环境配置和数据采集。
    2. 数据处理
    3. 数据可视化和综合分析报道
      怎么写了好像没写似的?
  4. 不求好,只求稳。学好基础能做出简陋的成品再谈别的。应该可以分为以下几条路线,组合起来就是成品了。

      • 实时数据分析
        Spark安装配置
        Flume 安装配置
        Kafka 安装配置
        HBase 安装配置
        Flink安装配置
        ClickHouse 安 装 配 置
        Spark 数据读取、数据存储
        实时数据分析全部
      • 离线数据分析
        Spark安装配置
        HBase 安装配置
        ClickHouse 安装配 置
        Spark 数据读取、数据存储
        离线数据处理全部
      • 数据可视化
        调用数据接口
        使用 Vue.js、ECharts 完成数据可视化(柱状图、折线图、饼状图等)
      • 按照打分各自负责
        数据处理跟数据采集的谈好怎么对接。
        数据处理人员又跟数据可视化人员谈怎么对接。
        就这样从上而下一层一层对接,逐步完成项目。
        不过这种做法最大的问题是,上一层没做完的话,下一层就没有可操作的空间,就只能单线程逐步一个人一个人的学习,而不能多人同时学习,最后组合了
posted @ 2023-02-27 22:48  淦丘比  阅读(346)  评论(0编辑  收藏  举报