一些开源数据标注工具 - 荣锋亮 - 博客园

一些开源数据标注工具

整理一些工具，方便学习使用

doccano

主要是进行文本处理的

label-studio

比较强大的工具，支持多种数据处理，目前迭代升级也比较快速

audino

进行声音标注的工具，目前不是很活跃了，好久没新的提交信息了

abel-studio-converter

label-studio 提供的通用数据转换服务，可以方便用来快速使用现有的模型

DarkLabel

用来处理视频以及图片标注的，目前不是很活跃，这个工具在老外一个学习视频中有介绍

labelImg

用来进行图片标注的，目前已经合并到label-studio 中了

universal-data-tool

很不错的工具，但是目前维护似乎不是很积极了，支持的数据格式是比较多的

SMART

方便在资源有限的环境进行数据的处理，目前还在维护中，就是star不是很多

fiftyone

处理机器视觉相关的数据

cvat

opencv 团队开源的

说明

同时HumanSignal 团队也在github 上提供了一个方便的集合，整理了不少数据标注工具awesome-data-labeling 很值得看看，
整体来说label-studio 是一个很不错的选择，选择上可以结合自己的业务场景（文件，视频，音频，图片。。。）

参考资料

https://github.com/HumanSignal/awesome-data-labeling
https://github.com/doccano/doccano
https://github.com/HumanSignal/label-studio
https://github.com/midas-research/audino
https://github.com/HumanSignal/label-studio-converter
https://github.com/doccano/awesome-annotation-tools
https://github.com/darkpgmr/DarkLabel
https://github.com/HumanSignal/labelImg
https://github.com/UniversalDataTool/universal-data-tool
https://github.com/RTIInternational/SMART
https://github.com/opencv/cvat
https://opencv.github.io/cvat/docs/administration/basics/installation/
https://github.com/voxel51/fiftyone

posted on 2023-10-14 08:42 荣锋亮阅读(468) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· label-studio docker-compose 运行试用

· vscode Data Wrangler 一个强大的处理vscode 数据处理工具

· 数据标注工具大合集

· 深度学习图像标注工具汇总

· 人工智能的数据标注

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2022-10-14 docker desktop url protocl 技术以及使用
2020-10-14 apache ignite docker集群运行试用
2020-10-14 rr一款强大的应用请求录制以及回放框架
2020-10-14 追踪postgres 后端调用情况
2020-10-14 重置idea 配置的方法
2020-10-14 jdbc连接池工具与pg fdw连接的问题
2019-10-14 ent 基本使用八索引

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

公告

昵称：荣锋亮
园龄： 11年6个月
粉丝： 153
关注： 0

最新随笔

随笔分类 (3865)

随笔档案 (4865)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

.NET安全揭秘系列博文索引

DB

geohash 学习

graphql

graphql 指南

IE 浏览器

IE 浏览器

IIS

IIS 7 配置模块

IOT

win 10 树莓派 IOT

open xml

REST 设计

REST API 设计模式

sharepoint

sharepoint 配置

sql server CLR

sql server CLR

SSIS 学习

SSIS 学习

UML

UML

vsto

vsto

web

Web service

Calling ASP.NET Webservice using JavaScript on Regular Interval of Time

windows 服务

使用Topshelf创建Windows 服务

插件开发

firebreath 插件开发

复杂事件处理

技术

类库

流量分析

Google Analytics

敏捷

移动

运维

海量运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:dremio 的 telemetry 处理简单说明
@colagy 添加dremio-telemetry.yaml 文件配置支持opentelemetry 的server地址就可以了，比如 tracing: type: opentelemetry se...
--荣锋亮
2. Re:dremio 的 telemetry 处理简单说明
请问怎么配置trace呢
--colagy
3. Re:通过instructor 对于LLM 进行结构化输出
@荣锋亮谢谢大佬指教...
--净乐思
4. Re:通过instructor 对于LLM 进行结构化输出
@净乐思你这个就不好说了，你得看你到底pdf 上需要提取啥信息，以及业务中pdf 的特点，pdf 大小等，一个建议是能优先直接提取的（不依赖大模型的，可以优先使用pdf 解析库处理），然后就是实际业...
--荣锋亮
5. Re:通过instructor 对于LLM 进行结构化输出
@荣锋亮你好大佬，我是从pdf中进行关键信息提取，基本上提取的数据类型都是string，请问该如何定义输出格式呢。...
--净乐思
6. Re:通过instructor 对于LLM 进行结构化输出
@净乐思看你的数据模式，如果是重复的可以使用列表，如果是多，但是并不是一类的，就写多个，核心还是结合你实际业务场景...
--荣锋亮
7. Re:通过instructor 对于LLM 进行结构化输出
博主你好，需要提取的字段很多，如何在结构化输出类中定义字段呢
--净乐思
8. Re:ollama qwen2 运行&openai 兼容api 测试
@荣锋亮好的非常感谢！...
--maxbread
9. Re:ollama qwen2 运行&openai 兼容api 测试
@maxbread 随便填写一个都行，不见得必须时ollama，只要是字符串，这个实际不check 是否正确...
--荣锋亮
10. Re:ollama qwen2 运行&openai 兼容api 测试
@荣锋亮那比如别的项目运行时需要openai api的地方填一个ollma就可以了吗？...
--maxbread
11. Re:ollama qwen2 运行&openai 兼容api 测试
@maxbread openai sdk 中随便填就行，ollama 的不check key 信息，就是为了兼容...
--荣锋亮
12. Re:ollama qwen2 运行&openai 兼容api 测试
您好！请问ollma兼容的openai api该怎么使用啊？例如有一个项目需要用到这个api，比如“["OPENAI_API_KEY"] = 'YOUR_OPENAI_API_KEY'”这里要使用的a...
--maxbread
13. Re:Quark 基于electron 的跨平台应用开发ide
quark浏览器以其简洁、高效、安全的特点赢得了广大用户的青睐。通过本文的介绍，相信大家已经对夸克浏览器有了更深入的了解。无论是日常浏览还是专业需求，夸克浏览器都能为用户提供出色的服务体验。赶紧去qu...
--浏览器爱好者
14. Re:openmetadata 构建说明
@hello,linux 你是不是没有不是git clone 的项目，构建是在git repo 中构建的吗...
--荣锋亮
15. Re:openmetadata 构建说明
您好，请问一下源码编译构建过程中，service模块构建出现空指针问题，怎么解决?代码分支为tag 1.4.4 ，我尝试了好几个分支都是出现这个问题，构建环境为 [root@94cd3ca7816a ...
--hello,linux
16. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
使用linux，windows 会有各种问题，而且理论上官方是不支持windows了，我一般构建都是linux 或者mac 系统上
--荣锋亮
17. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
大佬之前有遇到类似的错误吗？win10 maven的jdk按照要求的配置的，或者是要在linux上才能编译吗
--messliao
18. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@荣锋亮感谢...
--messliao
19. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@messliao 你项目root 目录，执行mvn clean install -DskipTests 就有了，那两个插件属于项目级的，需要先构建...
--荣锋亮
20. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@荣锋亮少了这两个maven插件...
--messliao
21. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@messliao 预计之后官方会提供完整的maven依赖吗？官方已经提供了，我前段时间也说明了，可以直接构建了，这种方法是如果实在没提供，但是希望自己构建的方法...
--荣锋亮
22. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
预计之后官方会提供完整的maven依赖吗？
--messliao
23. Re:graylog MessageOutput 简单说明
@995- 你要导啥用户...
--荣锋亮
24. Re:graylog MessageOutput 简单说明
亮哥，graylog外部账户倒入是怎么处理的？
--995-
25. Re:JFrog Artifactory CE c&&c++ 包管理工具
@踏云我刚试了一些最新版本，看着没啥问题，可能是windows docker 的问题，我使用的是linux 系统这个可以参考下，实在不行找下jfrog 官方的issue...
--荣锋亮
26. Re:JFrog Artifactory CE c&&c++ 包管理工具
你好，请教个事情。【前置处理】：我是在windows上安装的Docker Desktop。【安装部署】：安装你的这条命令 docker run -d -p 8081:8081 docker.b...
--踏云
27. Re:sbom-tool 微软提供sbom工具
哈哈，谢谢你还记得我，npm、java的我都已经解决了，在集成 go和 Python 的时候发现生成的 sbom没有许可证信息，所以准备换sbom-tool试试，看到你这个文章所以想问下你转换后的情况...
--lunzi_fly
28. Re:sbom-tool 微软提供sbom工具
@lunzi_fly 我记得你以前问过，可以参考这个，合适就是把ci/cd 集成好...
--荣锋亮
29. Re:sbom-tool 微软提供sbom工具
请问博主，有试过转换后的 sbom.json使用dependency分析后，组件，漏洞、许可证信息全吗？
--lunzi_fly
30. Re:angie vod_module 模块的问题
点个赞
--995-
31. Re:sbom +dependencytrack 进行软件组件安全性分析
@lunzi_fly 你好，你是如何进行 npm进行生成前端代码 sbom.json的，命令可以参考下不里边已经写了，而且参考资料里边也有工具的资料...
--荣锋亮
32. Re:sbom +dependencytrack 进行软件组件安全性分析
你好，你是如何进行 npm进行生成前端代码 sbom.json的，命令可以参考下不
--lunzi_fly
33. Re:chaos-engineering 的一些开源工具
litmus、chaos blade这些也都开源了，还有个chaos mesh不清楚是否开源
--酒冽
34. Re:streamsets geoip 使用
@荣锋亮我也不太清楚是不是ip库的问题，就是从网上随便下载的一个ip库。您的微信多少，怎么添加您呢...
--一起随缘
35. Re:streamsets geoip 使用
@一起随缘博主您好，请问为什么解析的ip只能输出到国家，无法解析到具体的城市呢应该是可以到城市的，你看看是不是选择的ip库问题，streamsets现在不开源了，玩的少了，如果还有问题可以微信私聊...
--荣锋亮
36. Re:streamsets geoip 使用
博主您好，请问为什么解析的ip只能输出到国家，无法解析到具体的城市呢
--一起随缘
37. Re:cups+ippserver+cups4j 进行ipp 打印测试
而且这个也有可能是cups server字符编码配置有问题，可以尝试修改下cupsd.conf
--荣锋亮
38. Re:cups+ippserver+cups4j 进行ipp 打印测试
@李秀才后边没测了，周边没打印机，当时是临时在一个环境测试的，当时怀疑可能是client 包装处理的问题，你使用什么类型的打印机，还有有没有进行调试下，或者你可以跟下cups client看看它内部...
--荣锋亮
39. Re:cups+ippserver+cups4j 进行ipp 打印测试
兄弟，你后面打印中文乱码的问题解决了吗？我也碰到这个问题了。
--李秀才
40. Re:kestra 试用体验
感谢分享，看起来有点意思
--早呀早