《数据标注工程》第一章学习笔记及作业:数据标注概述(转)

《数据标注工程》第一章学习笔记及作业:数据标注概述

《数据标注工程》第一章学习笔记及作业:数据标注概述

第一章:数据标注概述

一、数据标注的起源与发展

1、人工智能行业的发展

  • AI的概念:意指让机器具有像人一般的智能行为(1956年,达特茅斯会议,由约翰·麦卡锡提出)
  • AI的发展:60多年来,浮浮沉沉、三起三落
人工智能发展史

2、数据标注的起源与发展

  • 前两次AI浪潮中,由于数据量级很小,数据标注主要由研究的工程师完成
  • 第三次浪潮后,数据标注需求逐渐增大
  • 2011年,数据标注的外包市场开启
  • 2017年,数据标注行业真正爆发

3、什么是数据标注

  • 概念:通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程。

4、数据标注分类概述

a. 图像标注:

  • 对汽车和行人进行筛选、分类、标框等
  • 对骨骼进行描点
  • 对病理切片标注
图像标注

b. 语音标注:

  • 发音人角色标注
  • 环境情景标注
  • 多语种标注
  • ToBI(Tones and Break Indices)韵律标注体系标注
  • 噪声标注等
语音标注

c. 文本标注:

  • 语句分词标注
  • 语义判定标注
  • 文本翻译标注
  • 情感色彩标注
  • 拼音标注
  • 多音字标注
  • 数字符号标注等
文本标注

5、数据标注流程概述

数据标注流程

a. 数据采集:

采集来源:

    • 公开数据集
    • 专业数据集

获取方式:

    • 用SQL从内部数据库提取
    • 下载公开数据集
    • 编写网页爬虫自主收集

采集要求 :

    • 要考虑采集规模和预算
    • 要注重采集数据的多样性
    • 考虑是否适用于应用场景
    • 采集方法要合法合理

b. 数据清洗:

概念:

    • 清洗脏数据,将数据统一成适合于标注且与注意密切相关的标准格式,以帮助训练更为精确的数据模型和算法

方法:

    • 对所有采集的数据进行筛检,最大限度的纠正数据的不一致性和不完整性

举例:

    • 去除重复值
    • 去除无关值
    • 去除异常值
    • 补充缺失值
    • 平滑噪声数据

c. 数据标注:

先试标:

    • 需求方算法工程师给出标注样板
    • 详细阐述标注需求和标注规则

后标注:

    • 有数据标注员对不同素材的数据进行标注

d. 数据质检:

目的:

    • 提高输出数据的准确率

方法:

    • 排查
    • 抽查

二、数据标注的应用场景

1、出行行业

场景 :

  • 汽车自动驾驶研发
  • 规划出行路线
  • 优化驾驶环境

应用:

  • 矩形框或描点标注车辆
  • 矩形框或描点标注人体轮廓
  • 在地图上标记POI

2、金融行业

场景:

  • 身份验证
  • 智能投资顾问
  • 风险管理
  • 欺诈检测

应用:

  • 通过语义分析制作合同研发软件,大大缩短合同审查工作的时间,并显著降低错误率

3、医疗行业

场景:

  • 医学编码和注释
  • 远程医疗
  • 医疗机器人
  • 医疗影像
  • 药物挖掘
  • 疾病预测

应用:

  • 人体标框
  • 3D画框
  • 骨骼点标记
  • 病历转录

4、家居行业

场景:

  • 智能家居

应用:

  • 矩形标框标记人脸
  • 人脸精细分割
  • 对物品进行画框标记
  • 通过描点来区域划分
  • 采集语音进行标注处理

5、安防行业

场景:

  • 日常监控

应用:

  • 人脸标注
  • 视频分割
  • 语音采集
  • 行人标注

6、公共服务

场景:

  • 内容审核

应用:

  • 将同意语句归类的语义分析
  • 音频转化文字的语音转录

7、电子商务

场景:

  • 建立客户全生命周期数据
  • 预测需求趋势
  • 优化价格与库存
  • 精准营销

应用:

  • 搜索完善
  • 情绪分析
  • 人脸标注
  • 语音采集

三、有多少智能,就有多少人工

1、有监督的机器学习

AI体系的三大底层:

  • 数据
  • 算法
  • 应用

机器学习 :

  • 有监督学习
    • 核心在于“分类”
    • 主要用于实际产品应用
  • 无监督学习
    • 核心在于“聚类”
    • 主要用于探索研究
  1. 数据标注工作都是有监督学习

2、最后一批人工智能的“老师”

AI疯狂生长,标注岗位逐渐消亡:

  • 由弱人工智能,到强人工智能,直至超人工智能
  • 最终“学生“将超越”老师“,人工标注也将不复存在

目前阶段的AI辅助工具:

  • 例如“流体标注”
手动标注和流体标注的对比

四、数据越多,智能越好

深度学习的成功归功于:

  • 高容量的模型
  • 越来越强的计算能力
  • 可用的大规模标签数据

大规模数据有助于表征学习:

  • 模型性能与数据的数量级呈线性增长关系
测试性能随数据量呈线性增长
  • 随着感知智能向认知智能发展,对数据标注的维度和细化程度的要求也会增加

五、本章框架

六、作业与练习

1、如何理解数据标注与人工智能的关系?

答:人工智能意指让机器具有像人一般的智能行为,目前阶段的人工智能技术主要通过机器学习算法来达到相应的目的,而数据标注工作通过对数据进行处理,标记对象的特征,为机器学习提供了基础素材,因此数据标注可以看做是部分人工智能算法的前期基础工作。

2、什么是数据标注?

答:通过分类、画框、标注、注释等方法,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程就是数据标注。

3、数据标注对象可以划分为哪几类?

答:按标注对象为分类基础,可分为:图像标注、语音标注和文本标注等。

4、数据标注流程包括哪些环节?

答:包括四个环节,即数据采集、数据清洗、数据标注和数据质检。

5、数据标注有哪些应用场景?

答:数据标注的应用场景随着人工智能行业的发展日趋多样化,深入各行各业。例如:出行行业中的自动驾驶研发、物联网数据、交通网络大数据、车载应用技术等;金融行业中的身份验证、智能投资顾问、风险管理、欺诈检测等;医疗行业中的远程医疗、医疗机器人、医疗影像、药物挖掘、高效诊断与治疗等;家居行业丰富的智能家居场景;安防行业的日常监控、出入境管理、刑侦案件侦查等;公共服务行业的内容审核、语义分析、语音转录、视频审核等;电子商务行业的精准营销、搜索完善、情绪分析等。

6、如何理解“有多少智能,就有多少人工”?

答:机器的智能程度与数据处理的量级和质量直接相关,而目前,数据的采集、清洗、标注、质检大多由人工完成,换言之,现在的弱人工智能阶段,有监督学习的机器智能是通过人工的“老师”“教”出来的。在向强人工智能甚至超人工智能的发展过程中,有监督学习会逐渐向无监督学习或迁移学习进行转变,到时,人工的部分可能将会大幅度削减。

7、数据量级与智能程度之间存在怎样的联系?

答:数据量级越高,智能水平越高,大规模数据有助于表征学习,随着训练数据的数量级增长,模型性能呈线性增长。

posted on 2022-08-01 14:46  NetPig  阅读(991)  评论(0编辑  收藏  举报

导航