中文文本摘要以及标题生成系统Demo搭建
赛题内容
标题生成:Rouge-L(20%)
摘要生成:抽取、生成
WEB系统:系统运行流畅、UI界面(60%)
技术文档:(20%)
Day1:五月8日🧐
研训的时候复现了基础的论文,这学期初也做了一些Django开发的工作,接下来想尝试一下两者结合
Day2:五月10日🕊
emm期末提前了,暂时没有时间了属实,找了一些资料,等考完再搞叭,属于玩一玩?的项目,准备记录一下自己bug的工程过程,以免之后做同类的找不到参考?嗯嗯
Day3:五月17日👩🏼💻复习和数据预处理
复习《认知科学》遇到瓶颈,然后撸一下项目;
一些参考资料:
一些已知的参数:
数据集 | 大小 | 内容[没有header以及col_iindex] |
---|---|---|
train | 5850 | (标题,正文) |
dev | 1679 | (标题,正文) |
Day4:五月18日🐵数据增广和GPU
试着去扩充了一下数据,爬虫使用的是“美味的汤”,效果还行,主要是选的网站没啥反爬和加密就很舒服~但是爬出来的内容数据格式是<p ……>内容……</p>
解决方案是正则,啊哈哈,之前编译原理答辩的时候听说有同学没用DFA直接用python自带的正则表达式,今天用了才知道——着实方便!(下面是简单示例每个板块只爬了5个,其实可以爬很多,是没有限制的良心网站
)
然后是服务器的使用问题,这个是肯定得用到GPU的,但是实验室那边……不是很想蹭,于是转向Kaggle,需要机制上网,切记机制上网+谷歌浏览器,这样一般不会遇到奇奇怪怪的问题。Kaggle资源是30h每周,昂,听说不是很稳定,但是目前来看应该是够的
Day5: 6月11日😜网站本地搭建(1)
1. 爬虫模块设计思路
输入的是类别,然后按照类别爬取
Day6-7:6月12日 逃不掉用户的登录和注册模块
BUGS:如何修改数据库表单结构
- 不是很麻烦,UserInfo一开始设置的时候忘记加上state信息,导致管理员那边有冲突,只需要添加数据段所以方法二够用了,直接在models里面添加列,然后设置默认值,直接两步make……就ok啦
【解决方案】-已解决
Day8-9: 6月17日 TextRank
基于TextRank的中文摘要工具 | Jayvee's Blog (jayveehe.github.io)
评分要求
1、标题生成算法评测(20%):
在规定时间提交标题生成测试集的结果,根据模型测试评分得到参赛者榜单排名,按照排名计算成绩。
2、WEB系统(60%):
(1) 实现标题生成和摘要抽取(生成)两大功能(30%)
(2) 系统运行流畅,UI界面合理和美观,人机交互友好(30%)
3、技术文档详细且清楚,展示汇报逻辑清晰、亮点突出(20%)
本文来自博客园,作者:理想国的糕,转载请注明原文链接:https://www.cnblogs.com/SaltyCheese/p/16436774.html嗷~