我们是靠眼睛、耳朵来捕获外界信息,然后将信息通过神经元传递给我们的大脑,最后我们的大脑会对获取来的各种信息进行分析从而达到诸如判断、识别等效果。

同样,人工智能之所以称呼他为人工智能,是因为它的核心:也就是神经网络模型。它就是根据模拟人脑的神经网络而诞生的。而图像、语音这一类信息通过特征标注处理(也就是数据标注),变成计算机能够识别的信息。同时通过大量特征数据的训练,最终达到计算机能够自主识别的目的。

那么目前AI市场上特征数据主要包括哪些呢?

像人类用眼睛和耳朵获取图像、语音数据一样,计算机的特征数据现阶段也分为两大类:图像数据和语音数据。

同时,根据AI产品迭代的不同周期、算法模型的匹配结果,每个大类又可以细分为众多小类,在这里我们主要对目前市场上主流的需求类型进行一个分类说明。

一、 图像类  这里图像类就是指所有照片的统称

图像场景识别作为人工智能不可获取的一部分已经在日常生活中被大批量应用,这里对图像特征的具体处理手法做一个简单介绍:

  1. 四边形矩形拉框  这个也就是数据标注市场上统称的2D拉框,它主要是用特定软件对图像中需要处理的元素(比如:人、车、动物等等),进行一个拉框处理,同时用一个或多个独立的标签来代表一个或多个不同的需要处理元素,同时在标签的添加上可能会碰到多层次的添加(以人为标注元素为例,长短发、胖瘦、穿衣颜色等)从而实现粗线条的种类识别。
  2. 多边形拉框  顾名思义就是将被标注元素的轮廓以多边型的方式勾勒出来,不同的被标注元素有不同的轮廓,除了同样需要添加单级或多级标签以外,多边型还有可能会涉及到物体遮挡的逻辑关系。从而实现细线条的种类识别。
  3. LandMark  标注行业统称打点,对需要标注的元素(比如人脸、肢体)按照需求位置进行点位标注。从而实现特定部位关键点的识别
  4. 语义分割  通过对需要标注区域或元素的充色,来达到不同元素或区域之间的分割关系,从而可以清晰的通过不同颜色的区域,对元素进行区分。从而实现系统化的识别。
  5. 点云拉框  在软件生成的三维模型中,对被标注元素进行外轮廓的3D立体拉框,与2d拉框相同,也需要对生成立体框添加特定标签。从而实现具有空间感的识别。
  6. VR打标  使用VR设备,在虚拟立体场景中,对需要标注的元素(各类物体)进行关键区域的打标签。从而实现更精准的被遮挡物品外观轮廓的感知。

二、 语音类  这里语音类就是指所有语音的统称

语音场景在人工智能领域作为和图片场景同样重要的环节,也同样被大批量的进行应用,这里对语音特征的处理手法大致介绍一下:

目前市场上主流的语音场景都是以区间为单元对区间内的内容进行转述,区间里的元素就是被标注元素。像图片场景里给被标注元素一个特定的标签一样,对区间里的被标注元素也需要提供一个特定的标签,当然这个标签可以是一个词语,也可以是具体的一句话。从而实现对于不同语句类别的判断和对不同语句内容的理解。

当然,各种处理手法在实际的数据标注中都会碰到各种各样的问题。有简单的,也有较为复杂的。这些问题无一例外的都会影响到我们标注员、审核员在工作中的效率,那么如何在实际操作中有效的提高标注效率呢?请持续关注我们的官网www.awkvector.com及Blog更新,我们会在接下来更新的文章中,给大家详细解惑。

阅读原文请进入:http://www.awkvector.com/20181208-1/