『深度实战』天池小目标检测大赛·宫颈癌风险智能诊断推荐
参赛对象
面向全社会开放,高等院校、科研单位、互联网企业等人员均可报名参赛。
注:大赛主办和技术支持单位如有机会接触赛题背景业务、产品、数据的员工,则自动退出比赛,放弃参赛资格。
报名及实名认证(即日起—2019年11月20日)
1、报名方式:登录比赛官网,完成个人信息注册,即可报名参赛;
2、选手可单人成队或2-5人组队参赛,每位选手只能加入一支队伍;
3、选手需确保报名信息准确有效,组委会有权取消不符合条件队伍的参赛资格及奖励。
4、报名、组队变更、实名认证截止时间均为2019年11月20日10:00 AM。未完成认证的参赛团队将于2019年11月20日12:00 AM淘汰,无法继续参赛。
5、大赛官方交流请至论坛,选手交流钉钉群扫描以下二维码:
赛题背景
大赛旨在通过提供大规模经过专业医师标注的宫颈癌液基薄层细胞检测数据,选手能够提出并综合运用目标检测、深度学习等方法对宫颈癌细胞学异常鳞状上皮细胞进行定位以及对宫颈癌细胞学图片分类,提高模型检测的速度和精度,辅助医生进行诊断。
赛题数据
本次大赛提供数千份宫颈癌细胞学图片和对应异常鳞状上皮细胞位置标注,数据为kfb格式,需要使用大赛指定SDK读取。每张数据在20倍数字扫描仪下获取,大小300~400M。
初赛环节允许选手下载数据,初赛提供的数据如下:宫颈癌细胞学图片800张,其中阳性图片500张,阴性图片300张。阳性图片会提供多个ROI区域,在ROI区域里面标注异常鳞状上皮细胞位置,阴性图片不包含异常鳞状上皮细胞,无标注。初赛讨论的异常鳞状上皮细胞主要包括四类:ASC-US(非典型鳞状细胞不能明确意义),LSIL(上皮内低度病变),ASC-H(非典型鳞状细胞倾向上皮细胞内高度),HSIL(上皮内高度病变)。(特别注明:阳性图片ROI区域之外不保证没有异常鳞状上皮细胞)
在复赛环节,通过线上赛的方式,不允许选手下载数据,在线完成模型训练,同时在线赛也为选手模型的代码复现和成果落地过程中的工程化开发提供支持。复赛预计提供1000份宫颈癌细胞学数据,通过检测多种细胞类别,进一步判断整个细胞学图片的类别。
本次大赛将合理划分训练集和测试集,隐藏测试标注数据作为模型测评依据。初赛的数据分为train和test两部分:train用来给选手训练模型,会提供给选手宫颈癌细胞学图片kfb文件和对应标注json文件,test用来进行评测。标注json文件内容是一个list文件,里面记录了每个ROI区域的位置和异常鳞状上皮细胞的位置坐标(细胞所在矩形框的左上角坐标和矩形宽高)。类别roi表示感兴趣区域,pos表示异常鳞状上皮细胞。json标注文件示例如下:
[{"x": 33842, "y": 31905, "w": 101, "h": 106, "class": "pos"}, {"x": 31755, "y": 31016, "w": 4728, "h": 3696, "class": "roi"}, {"x": 32770, "y": 34121, "w": 84, "h": 71, "class": "pos"}, {"x": 13991, "y": 38929, "w": 131, "h": 115, "class": "pos"}, {"x": 9598, "y": 35063, "w": 5247, "h": 5407, "class": "roi"}, {"x": 25030, "y": 40115, "w": 250, "h": 173, "class": "pos"}]
本次大赛还特别设置附加赛—VNNI赛道,VNNI赛的赛题和复赛一样,但是限定了深度学习训练框架(TensorFlow和MXNet),要求根据intel提供的模型压缩工具进行模型压缩,并在intel提供的VNNI平台上进行推理测评。VNNI赛道在复赛开赛后开放,需要单独报名,只有报名前30只队伍有资格参加比赛,要求必须在10天内提交一次有效结果,否则报名资格取消,其他队伍可以替补继续报名。
本次比赛将从数据安全角度保证医疗数据安全。本次比赛数据集将基于专门的数据安全脱敏软件,所有宫颈癌细胞学影像数据严格按照国际通行的医疗信息脱敏标准,进行脱敏处理,脱敏信息包括:医院信息、患者信息和标注医师信息,所有数据不可溯,切实保障数据安全,保护患者的隐私。
提交说明
参赛者提交多个json文件组成的文件夹打包压缩成ZIP文件,文件夹名自由选定,用英文小写表示(如:tianchi.zip),文件夹内的每个文件对应一个宫颈癌细胞学图片的检测结果,文件名是图像id号(如: 20160050033533_ano.json),json文件的内容是一个list文件,每个元素对应检测到的一个肿瘤细胞位置坐标,依次为包含肿瘤细胞的矩形左上角坐标xy,矩形宽高wh的数值以及置信度p。样例如下:
20160050033533_ano.json [{"x": 22890, "y": 3877, "w": 396, "h": 255,"p": 0.94135}, {"x": 20411, "y": 2260, "w": 8495, "h": 7683,"p": 0.67213}, {"x": 26583, "y": 7937, "w": 172, "h": 128,"p": 0.73228}, {"x": 2594, "y": 18627, "w": 1296, "h": 1867,"p": 0.23699}]
评估指标
赛题组会初赛采用目标检测任务常用的mAP(mean Average Precision)指标作为本次宫颈癌肿瘤细胞检测的评测指标。我们采用两个IoU阈值(0.5,0.7)分别来计算AP,再综合平均作为最终的评测结果。
具体地,对于每张宫颈癌细胞学图片,参赛选手通过检测模型输出整张图像多个预测框位置和置信度,我们后台评测算法会随机生成一些ROI区域,且只在ROI区域中计算mAP。
AP计算过程:首先固定一个IoU阈值,计算每个预测框和真实标签的IoU大小,根据阈值判断预测框是否正确。然后在对预测框根据置信度排序,设定不同的置信度阈值得到一系列召回率和精确率值,在不同的召回率下对准确率求平均,即为AP。
Recall(召回率)= TP/ (TP+FN)Recall(召回率)=TP/(TP+FN)
Precision(精确率)= TP/ (TP+FP)Precision(精确率)=TP/(TP+FP)
赛程安排
本次大赛分为第一赛季、第二赛季和总决赛三个阶段,具体安排和要求如下:
第一赛季,2019年10月24日-2019年11月21日
1、报名成功后,参赛队伍通过天池平台下载数据,本地调试算法,在线提交结果。若参赛队伍在一天内多次提交结果,新结果版本将覆盖旧版本。
2、10月24日起提供每天1次的评测机会,系统排行时间为10:00AM,每天更新排行榜,按照评测指标从高到低排序;(排行榜将选择选手在本阶段的历史最优成绩进行排名展示,不做最终排名计算)
3、第一赛季截止后(11月21日10:00AM最后一次评测),组委会将进行排名前100名参赛队伍的入围审核。部分团队将需要提交代码作为补充材料进行审核,组委会将识别只靠人工标注而没有算法贡献的队伍,并终止上述团队参赛,晋级空缺名额后补。
第二赛季,2019年11月28日-2020年1月9日
1、复赛参赛队伍在线获取训练数据和更新的测试数据,在线提交调试算法,在线提交结果。
2、复赛数据不可下载,选手需使用 PAI-DSW 平台(https://data.aliyun.com/pai/dsw)完成数据处理、建模、算法调试、产出结果等所有环节。PAI-DSW(Data science workshop)是专门为算法开发者准备的云端深度学习开发环境,目前DSW内置了PAI团队深度优化过的Tensorflow框架,同时也可自行安装需要的第三方库。
2、2019年11月28日起提供每天1次的评测和排名机会,系统评测开始时间为10:00AM,每天更新排行榜,按照评测指标从高到低排序;(排行榜将选择选手在本阶段的历史最优成绩进行排名展示)
3、第二赛季截止时(2020年1月9日10:00),TOP20团队进入代码审核。代码审核要求选手提交的代码结构清晰,根据说明可直接通过脚本重新完成模型的训练与推断,复现比赛成绩。此外,在审核阶段会着重比较代码的重合度。复赛代码审核通过的排名前10名的参赛队伍选手代表将受邀参加决赛。
VNNI赛道,2019年11月28日-2020年1月20日
由于病理图像输入尺寸非常大,通常可以达到几G几十亿个像素,传统的NvidiaGPU无法容纳更多的全局图像信息,并且低效的推理过程。本次大赛将由intel支持,参赛者可以摆脱GPU显存限制,验证intel VNNI在超高分辨率病理图像上的工程效率。
1、11月28日起,初赛TOP100的队伍将可以进行该赛道报名,开放30个参赛名额,按照报名优先顺序开放该赛道参赛资格,首批报名将于12月10日10:00截止,并公布参赛团队名单。
2、12月20日将针对未产出成果的团队进行淘汰,根据第一期报名的顺序,依次开放名额。
总决赛(暂定2020年2月)
1、决赛将以现场答辩会的形式进行,晋级决赛团队需提前准备答辩材料,包括答辩PPT、参赛总结、算法核心代码。
2、决赛将邀请每支队伍至多3位代表参加,由组委会承担差旅费用。具体安排另行通知。
3、答辩现场,评委将根据选手的技术思路、理论深度和现场表现进行综合评分。
4、决赛分数将根据参赛队伍的算法成绩和答辩成绩加权得出。具体加权比例另行通知。依据决赛分数评选出大赛奖项并举行隆重颁奖。
奖项设置
大赛激励:
冠军:1支队伍,每支队伍奖金壹拾伍万,颁发获奖证书
亚军:2支队伍,每支队伍奖金捌万,颁发获奖证书
季军:3支队伍,每支队伍奖金伍万,颁发获奖证书
优胜奖:4支队伍,每支队伍奖金壹万,颁发获奖证书
(上述奖项以总决赛答辩的最终名次决定)
VNNI赛道激励:
一等奖:1支队伍,每支队伍奖金陆万
二等奖:2支队伍,每支队伍奖金叁万
三等奖:3支队伍,每支队伍奖金贰万
优胜奖:4支队伍,每支队伍奖金伍仟
组织单位:
主办单位:
阿里云计算有限公司
英特尔(中国)有限公司
指导单位:
北京协和医院
合作单位:
宁波江丰生物信息技术有限公司
北京青梧桐健康科技有限公司