AIGC数据标注的影响与应用等
数据标注是将原始数据进⾏加⼯处理,⽐如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。
国内数据标注⼚商,⼴义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等⼯作,为下游客⼾提供通⽤数据集、定制化服务、数据闭环⼯具链等。这也是本次AIGC数据标注全景报告的研究对象。
数据标注一般流程:
数据标注中的⼆⼋定律
通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%
根据原始数据类型以及训练任务划分:
【⽂本】:词性标注、分类标注、情绪标注、命名实体识别、语义标注、意图标注等;
【 图像】:图像分类、语义分割、实例分割、拉框、OCR转写等;
【⾳频】语⾳识别、声纹识别、语⾳转写等;
【视频】⽬标跟踪、⾏为识别等;
【3D点云】
大模型时代下的数据标注
以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的⼤模型也被验证在⽂本、图像领域标注具有可⾏性,并衍⽣出专⻔做数据标注的⼤模型,⼤幅降低⾃动化标注⻔槛。国内不少数据服务商进⾏相关⼤模型研发,部分产品已经发布:
• 海天瑞声:数据⽣产垂直⼤模型(研发阶段)
• 曼孚科技:⾃动驾驶数据标注视觉⼤模型(已完成研发)
• ⻰猫数据:⾃动驾驶⼤模型AutopilotGPT(发布)
• 商汤:明眸SenseAnnotation⾃动化数据标注平台(发布)
• 标⻉科技:烘焙师⼤模型Baker-GPT(发布)
需求变化:与⾏业场景强相关,高质量数据需求长期且持续
数据处理流程设计涉及⼤模型Know-how,直接决定⼤模型性能好坏。尤其后两个阶段需要专业⼈⼠⽣成数据或对数据进⾏改写或排序,最终形成符合⼈类标准(⽐如专业逻辑、核⼼价值观等)⾼质量数据;
⼴泛认知⾥,⼤模型是以数据为中⼼的产物。数据数量和质量很⼤程度决定着⼤模型能⼒的上限。
n 以模型为中⼼:迭代模型,数据相对固定。
n 以数据为中⼼:关注数据本⾝,模型成为了数据的「容器」。
⽽后随着⼤模型持续地实时更新迭代、朝着多垂直领域落地,尤其通⽤智能、具⾝智能等相关探索,如何快速扩展到更多真实边缘场景,⾼质量场景数据也将成为刚需。
数据标注从劳动密集朝着知识密集型转变
三⼤影响因素:以技术+场景聚合的⻜轮效应
⼀、看技术能⼒
数据标注作为AI底层服务,最本质是为客⼾降本增效。持续迭代技术能⼒的企业
将有机会脱颖⽽出,包括不限于以下⼏点:
1、数据闭环⼯具链的智能化⽔平
2、 对⼤模型/算法Know-how的理解
3、 数据⼯程化能⼒、数据基础设施建设
……
⼆、看场景资源
三、看飞轮效应
1、数据标注仍具备⻜轮效应;
2、 新创业公司⼊局⻔槛进⼀步提⾼;
3、 专业数据服务商更多机会将在垂类场景,帮助企业完成私有化部署;
4、 对外输出数据服务的⼤模型公司/AI企业也存在竞争优势。
市场竞争格局
数据标注⾏业传统依靠渠道、⼈⼒等形成的低成本竞争优势将被重塑,数据需求⽅将更看重数据质量、场景多样性和可扩展性。
1.作者:Syw 2.出处:http://www.cnblogs.com/syw20170419/ 3.本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 4.如果文中有什么错误,欢迎指出。以免更多的人被误导。 |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
2021-11-22 周报制度
2021-11-22 【原创】测试技术分享规划
2019-11-22 TAPD---“文档”的用途