人工智能的数据标注
随着人工智能的发展,衍生了很多的数据标注公司,比如著名的:
百度众包,京东众智,阿里众包等,通过他们的官网就可以申请数据标注的需求,一般2个小时左右就会有人和你联系,然后给你洽谈细节。
数据标注是专门为人工智能模型训练提供训练数据的服务,是随人工智能崛起而产生的一种新兴职业。往期内容中,我们了解了数据标注基本流程中的前两项:数据采集和数据清洗,这次来聊一聊大家最熟悉也是十分重要的环节——数据标注。
数据的采集,数据的标注,数据的学习 才能让机器学习真正的实现人工智能。就比如现在很火的Chatgbt也是需要做数据标注的,由于美国人的人力成本比较高,他们把这块业务外包出去,放到一些人力成本相对来讲比较廉价一些的国家去做。比如印度等。。
什么是数据标注
数据标注是对未经处理的语音、图片、文本、视频等数据进行加工处理, 并转换为机器可识别信息的过程。
这个过程中,需要通过某些工具或手段人为地为图片、视频、语音和文本数据添加分类、画框、注释等,例如为图片画框、将语音转成文本、给文本或图片及语音等添加分类,这些标记后的数据成果可用于算法模型训练,提高模型效果。训练好的算法模型可以运用到图像识别、语音识别、自动驾驶等不同领域...
数据标注按照待标注数据的形式可以分为文本标注、语音标注和图像标注三大类。而这三大类型又可以细分出许多任务类型。
文本标注
文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,标注好的数据可以用于机器人学习文本中含有的意图或情感,使机器可以更加深入理解人类语言。
https://baijiahao.baidu.com/s?id=1745274117761099751&wfr=spider&for=pc
-----------------------------------------------------
数据标注很多是人工进行标注的,也有一些再开始使用自动化实现数据标注的。常用的数据标注工具有:
据不完全统计,数据标注行业的全职标注人员超数十万,兼职标注人员达数百万,并且这个数字一直在增长中。数据标注的队伍逐渐壮大,有更多人希望在标注领域分一杯羹。竞争压力大的情况下,数据标注员想要高效率高质量完成标注任务,利用最短时间创造最大收益,必定离不开顺手的数据标注工具。
从最初的的文档或表格标注到专业的标注工具,数据标注的效率蹭蹭上涨!这一份数据标注工具清单,可根据自身需求选择使用。
1、Labelme
Labelme 能够对图像进行多边形、矩形、圆、折线,点形式的标注,主要用于目标检测,语义分割,图像分类等任务。支持视频标注、支持导出VOC与COCO格式数据实例分割都可以用它标注。
下载地址:
https://github.com/wkentaro/labelme
2、Labellmg
LabelImg 是一款 标框 标注工具,通过创建矩形框及标签属性标签相应的区域内容,得到 标注信息是矩形框的 位置大小和标签属性的XML文件。
下载地址:
https://github.com/tzutalin/labelImg
3、VGG(VIA)
VGG 是一款开源软件,支持在线或离线使用,能标注矩形、圆、椭圆、多边形、点和折线标注,VGG 有一个亮点,根据标签 ID 可以自定义不同的标签名称,在遇到复杂难懂的标签名称时,我们也能轻松搞定。
VGG发布的图像标准工具,支持对象检测、图像语义分割与实例分割数据标注。基于WEB方式的标注工具。可以下载运行部署在本地。对人脸数据标注提供了各种方便的操作,人脸数据标注首选工具。
下载地址:
http://www.robots.ox.ac.uk/~vgg/software/via/
4、OpenCV/CVAT
CVAT 是 Opencv 出品的一款网页版视频图像标注工具, 通过 Docker 进行部署,安装特定的环境及依赖库,打开谷歌 Chrome 浏览器去访问。
高效的计算机视觉标注工具,支持图像分类、对象检测框、图像语义分割、实例分割数据标注在线标注工具。支持图像与视频数据标注,最重要的是支持本地部署,无需担心数据外泄。
下载地址:
www.github.com/opencv/cvat
5、Labelbox
Labelbox 是国外的一款在线标注工具,界面简洁。基础版本的图像标注只能进行矩形框以及多边形的标注,如果需要更多标注工具以满足不同的标注场景需要去 labelbox 自定义的标签界面导入 Api 接口,并使用 fetch 和 submit 函数与 labelbox 集成。
下载地址:
https://labelbox.com/
6、VOTT
微软发布的基于WEB方式本地部署的视觉数据标注工具。支持图像与视频数据标注,支持导出CNTK/Pascal VOC格式,支持导出TFRecord、CSV、VoTT格式。当前主要分支版本有V1与V2版本。
下载地址:
https://github.com/microsoft/VoTT
7、PixelAnnotationTool
图像语义分割与实例分割标注神器,交互式标注算法思想是基于OpenCV中分水岭算法实现。支持,可以直接下载编译好的二进制文件使用。
下载地址:
https://github.com/abreheret/PixelAnnotationTool/releases
8、point-cloud-annotation-tool
支持点云数据加载、保存与可视化、点云数据选择、3D BOX框生成、KITTI-bin格式数据。
下载地址:
https://github.com/springzfx/point-cloud-annotation-tool
9、AI-tagger
AI-tagger是盘石数据自主研发的数据标注工具,支持私有化部署。
丰富的数据标注组件:多种可视化工具组件配置,通过AI加速标注,极大提升数据处理速度,操作便捷易用。
多年技术沉淀开发的专业标注平台:数据加密,标注内容安全性管理,敏捷智能,高速扩展。