《数据标注工程》第四章学习笔记及作业:数据标注质量检验(转)
《数据标注工程》第四章学习笔记及作业:数据标注质量检验
第四章:数据标注质量检验
一、数据质量影响算法效果
数据质量对算法的影响
- 机器学习是一种从数据中自动获得规律,并利用规律对未知数据进行处理的过程。
- 数据标注是让机器学习从数据中更准确有效的获取规律。
- 数据标注质量80%,机器学习的训练效果只有30%~40%。
- 数据标注质量达到98%的时候,机器学习的训练效果为80%,且后续提升就没有之前那么明显了。
数据标注质量
二、数据标注质量标准
数据标注的质量标准就是数据标注的准确性
1、图像标注质量标椎
100%准确度的图像标注要求,标注像素点与标注物的边缘像素点存在1个像素以内的误差
①、标框标注:上下左右边框均与标注物边缘像素点有1个像素点以内的误差
②、区域标注:每一个边缘像素点进行检验,误差在1个像素点以内
③、其他图像标注:结合实际的算法制定,质检人员要理解算法的标注要求
2、语音标注质量标准
标注与发音时间轴误差在1个语音帧内
语音标注图片
3、文本标注质量标准
①、多音字标注:标注全部读音,包括方言发音,因此质量检验时需要借助专业性工具
②、语义标注:标注词语或句子的寓意,在检验中分为以下三种情况
- 针对单独词语或语句进行检验
- 针对上下文的情景环境进行检验
- 针对语音数据中的语音语调进行检验
语义标注质检除了借助专业性工具外,还要对上下文的情景环境及语音语调进行理解
三、数据标注质量检验方法
一般的产品检验方法分为全样检验和抽样检验。
1、实时检验
实时检验是现场检验和流动检验的一种方式,一般安排在数据标注任务进行过程中。
实时检验流程
①、实时检验方法的优点:
- 能及时发现问题并解决问题
- 能够有效减少标注过程中重复错误的重复出现
- 能够保证整体标注任务的流畅性
- 能够实时掌握数据标注的任务进度
②、实时检验方法的缺点:
- 对人员的配备及管理要求较高
- 一般1质检员负责实时检验5~10名标注员
③、检查内容:
- 标注员的标注方法
- 熟练度
- 准确度
- 检查时间点为标注员完成一个阶段的标注任务后(数据集分段标注)
2、全样检验
全样检验是标注任务交付前必不可少的过程
全样检验流程
①、全样检验的优点:
- 能够对数据集做到无遗漏检验
- 可以对数据集进行准确率评估
②、全样检验的缺点:
- 需要耗费大量的人力精力集中进行
3、抽样检验
抽样检验是产品生产中一种辅助性检验方法,将抽样检验方式进行叠加,形成多重抽样检验方法。此方法可以辅助实时检验或全样检验,具体如下:
辅助实时检验
- 适用情况:出现在数据标注任务需要采用实时检验,但质检员和标注员比例失衡,标注员过多的情况。
- 方法:全样合格就抽样(减少50%),抽样合格就继续减少50%,不合格就全样
辅助全样检验
- 使用情况:主要作用是减少全样检验中的疏漏
- 方法:全样合格后,进行抽样,抽样合格就减半,不合格就加倍。多轮抽样均不合格,需要重新全样,多轮抽样没有或只有一轮不合格,就认定为合格,仅需改正抽样发现的不合格标注即可
①、多重抽样检验方法的优点:
- 能合理调配质检员的工作重心
- 有效地弥补其他检验方法的疏漏
- 提高数据标注质量检验的正确性
②、多重抽样加纳方法的缺点:
- 只能辅助其他检验方法,如果单独实施,会出现疏漏
四、本章知识点框架
五、作业与练习
1、标框标注的质量标准是什么?根据标框标注的质量标准进行标注与质检。
答:标注时,需要对标注物最边缘像素点进行判断,然后检验标框四周边框是否与标注物最边缘像素点的误差在1个像素以内。
质检时,如果标框的上下左右边缘边框均与目标标注物最边缘像素点误差在1个像素以内,则是一张合格的标框标注图片,否则不合格。
2、区域标注的质量标准是什么?根据区域标注的质量标准进行标注与质检。
答:标注时,需要对标注物的每一个边缘像素点进行检验,同时应特别注意边缘的转折与拐角,避免产生误差。
质检时,如果区域标框像素点与汽车边缘像素点的误差在1个像素点以内,则是一张合格的区域标注图片,否则不合格。
3、语音标注的质量标准是什么?根据语音标注的质量标准进行标注与质检。
答:标注时,标注与发音时间轴误差应在1个语音帧以内。
质检时,需要在相对安静的独立环境中眼耳并用,关注语音数据发音的时间轴与标注区域的音标是否相符,若相符并且误差在1个语音帧以内,则是一段合格的语音标注,否则不合格。
4、实时检验方法的流程与优缺点是什么?
答:当标注员开始标注时,质检员就可以进行检验,当标注完成时,质检员对标注结果进行检验,如果合格则放入已完成数据集,不合格则让标注员返工。
优点是能够及时发现并解决问题,有效减少标注过程中重复错误的重复出现,能够保证整体标注任务的流畅性,能够实时掌握数据标注的任务进度。缺点是对人员的配备和管理要求较高。
5、全样检验方法的流程与优缺点是什么?
答:质检员对全部已完成标注的数据集进行全样检验,合格则存放到已合格数据集中等待交付,不合格则需要标注员进行返工改正标注。
优点是能够对数据集做到无遗漏检验,可以对数据集进行准确率评估。缺点是耗费大量人力精力。
6、抽样检验方法怎样配合其他两种检验方法?流程与优缺点分别是什么?
答:通过辅助实时检查,使质检员的工作重心集中在质量相对不达标的标注员身上,适用于质检员数量不足的情况。通过辅助全样检验,可以减少全样检验中的疏漏,增加数据标注的准确率。
流程:①、辅助实时检验:当标注员完成任务后,质检员会对其进行第一阶段的检验,若全部合格,则第二阶段检验时支队其标注数据的50%进行检验,如果不合格,则在第二阶段时继续全样检验。以此类推。若三个阶段过后依然不合格,则需要重新培训
②、辅助全样检验:全样检验完成后,对标注员进行第一轮抽样检验,若合格,则在第二轮检验时减少50%的数据量。否则在第二轮增加一倍的检测量。若存在两轮不合格的情况下,则需要重新全样检验,若只有一轮不合格,则改正即可。
优点是能够合理调配质检员的工作重心,有效地弥补其他检验方法的疏漏,提高数据标注质量检验的准确性。缺点是只能作为辅助手段,如果单独实施会出现疏漏。