博客内容分类查重分析平台——大致任务划分(根据进度更改)
博客平台概述:主要用于博客园为学生课程评判标准的教师使用
博客平台主要功能模块:
后台处理
1、根据用户博客链接获取博客内容与已爬取博客内容进行查重比对(根据标签划分)并生成查重报告。
2、通过自然语言分析将博客的内容进行提取生成摘要确定博文概述及技术成分。
3、根据博主博客内容确定博主擅长领域。
4、根据结果生成学生得分报告
前端
1、用户登录划分
2、查重报告结果展示
3、个人博客园博客列表界面
4、博客内容详情界面
5、博主能力统计图表展示
大致学习进度计划
开始阶段:springboot框架学习webmagic爬虫技术学习,初步实现博客数据爬取以及数据清洗,确定查重比对范围,确定平台基本功能框架,springboot框架的搭建(一个月左右,中期前完成)
第二阶段:查重算法以及自然语言分析的学习,相应主要功能模块的实现。
第三阶段:报告结果的生成,界面展示