《数据标注工程》第五章学习笔记及作业:数据标注管理(转)
《数据标注工程》第五章学习笔记及作业:数据标注管理
第五章:数据标签管理
数据标注工厂的各方面管理工作,需要从七个方面展开:工厂设计、管理架构、数据安全管理、质量管理体系、项目评估、订单管理和客户维护。
一、数据标注工厂设计
工厂的设计需要合理的办公区域划分,才能保障工厂的日常运作。
数据标注工厂简易平面图
①、商务办公区域
- 用于通过商务渠道维护以及接待洽谈数据加工业务
- 需要连接互联网,并配备固定电话
- 为了保证数据安全,不能与数据清洗和数据标注区域安排在一起
②、综合办公区域
- 用于安排行政、人事、财务等保障工厂日常运作的部门
- 需要连接互联网
- 为了保证数据安全,不能与数据清洗和数据标注区域安排在一起
③、数据采集区域
- 用于进行数据采集的相关工作
- 需要连接互联网
- 为了保证数据安全,不能与数据清洗和数据标注区域安排在一起
- 需要根据项目划分独立办公室
④、数据清洗区域
- 用于原始数据的清洗,包括质检与脱敏等
- 只连接局域网,并禁止拷贝
- 需要根据项目划分独立办公室
⑤、数据标注区域
- 用于数据标注工作
- 只连接局域网,并禁止拷贝
- 根据标注方式方法不同进行区域划分:区域标注区、描点标注区、空间标注区、文本标注区、标框标注区、语音标注区
- 特数区域:
- 标框标注区:由于是广泛应用的入门级标注,因此以实习生为主,需要更多的沟通指导,因此可以放宽独立办公室的要求
- 语音标注区:需要眼耳并用,注意力高度集中,对环境要求严格,需要在相对封闭隔音的区域,应减少隔音区域内人员之间的相互干扰,少安排人
- 每个区域内不同的项目需划分独立办公室
⑥、涉密项目区域
- 根据涉密等级分为秘密、机密和绝密
- 参与涉密项目的人员必须经过严格的保密培训并签订《项目保密协议》
- 涉密人员进入涉密项目区域及使用涉密项目专用计算机必须通过身份验证,并通过安全检查,禁止携带通讯或电子产品进入
- 每个涉密项目需有专属的独立办公室,涉密项目人员只能进入后参与项目,非涉密项目人员不得进入
- 涉密项目加工的数据必须在涉密项目专属独立办公室中的涉密计算机上进行,禁止链接互联网和外界设备拷贝
- 完成交付后初始化,清除一切相关信息
⑦、交流培训区域
- 每个区域都需要安排交流培训区
- 交流培训区需要设立独立办公室或会议室
- 根据项目难易度安排办公室数量
二、数据标注管理架构
简易管理架构图
从业务性质上主要分三个序列:数据采集序列、数据清洗序列、数据标注序列
每个序列都有一个总负责人,负责管理和安排本序列的工作。然后按照项目分设项目小组长,负责带领组员按照要求完整具体的项目任务。
其中,数据清洗组还要分别设立原始数据的质量检验工作负责人和敏感数据清洗工作负责人。
数据标注组由于标注方法类型比较多,所以需要根据标注方法类型进行管理,按照类型分别设置单项标注负责人,然后再根据项目安排组长和小组长。一般小组长由质检员担任。
三、数据安全管理与质量管理体系
1、数据存储安全管理要求
- 数据加工的服务器与计算机禁止连接互联网,禁止通过外接设备拷贝
- 数据加工的服务器需要使用多节点存储系统,以便某节点损坏后能够及时恢复数据
- 数据加工的服务器要定期做好容灾备份,保证数据不丢失
2、工厂人员行为管理
①、视频监控系统
对工作人员行为进行视频监控,预防工厂人员窃取数据,或在数据泄露发生后追踪溯源
②、门禁管理系统
门禁管理可以有效地防止无关人员流窜至项目组内,各项目的参与者凭身份识别进入项目办公,可有效降低数据泄露风险
3、溯源体系建设
- 对数据从预处理阶段到最终交付其间所有经办人进行记录
- 可以使用智能水印技术对每个环节进行记录
4、质量管理体系建设
通过将多种数据标注质量检验方法(全样检验、实时检验、多重抽样检验)进行组合,建立适合公司架构质量管理体系。
质量管理体系流程图
四、数据标注项目评估
项目评估流程
项目评估定价需要先沟通验收标准,然后组织5-10人进行试标来评估难易程度,最后根据试标情况进行合理计算估价。
五、数据标注订单管理
订单管理流程图
- 为保证订单及时交付,需要对订单的实施进度进行管理
- 项目负责人根据任务要求合理分配任务
- 小组长每日统计本组当日完成情况
- 负责人统计整个项目的完成效率
- 对进度落后的小组分析原因,及时解决问题保证项目进度
六、数据标注客户关系管理
优秀的客户关系管理可以为工厂带来更多的业务,创造更大的价值,使工厂在市场竞争中更具优势。
1、确立业务计划:确定通过客户关系管理需要实现的目标
2、组建客户关系管理团队:根据之前确定的目标来组建团队
3、客户信息管理:制作客户资料卡,包括客户的基础资料与经营现状等
4、客户关系管理的分析:分析客户与本公司的交易状况、客户等级、客户信用调查
七、本章知识点框架
八、作业与练习
1、请画出数据标注工厂的简易平面图。
简易平面图
2、请简述数据标注工厂管理架构
答:按业务性质分为三个序列:数据采集、数据清洗与数据标注。每个序列设立一个总负责人,负责管理和安排本序列各项工作。在总负责人下面按项目分别设立组长,其中数据清洗序列需要额外设立原始数据质检负责人和脱敏负责人,数据标注序列需要按不同的标注类别设置单项标注负责人。
3、请简述数据标注工厂的溯源体系
答:发生数据泄露等问题后,需要快速找到发生问题的源头,这就需要建立溯源体系。溯源体系需要对数据从预处理到交付期间的所有工作流程的所有经办人进行记录,可以使用智能水印技术,以此直接找到问题环节负责人。
4、请简述数据标注项目评估流程
答:先对项目的验收标准进行沟通确认,然后根据沟通好的标准安排5-10人进行小任务量的试标,通过试标结果估算完成全部任务所需要的时间及人力成本,以此来评估项目的整体定价。
5、请简述数据标注订单管理流程
答:首先确定项目负责人,项目负责人根据项目的评估报告来划分任务,根据总体情况来安排每日的任务指标,项目小组长根据每日任务指标对组员进行任务进度管理,并统计汇报每日的任务完成情况。负责人再根据各小组长提交的每日情况得出整个项目的完成效率,排查并解决低效率问题的环节,从而保证项目进度。
6、请简述数据标注客户关系管理工作内容
答:首先需要明确客户关系管理的目标,根据目标组建好团队,然后制作客户资料卡,包括客户的基础资料以及经营现状,并对客户与本公司的交易现状、客户等级、客户信用调查等进行进一步分析,以便及时了解客户的情况,定期更新客户资料卡,定期组织业务人员开会沟通客户关系管理的进展情况,从而保证客户不轻易流失。