如何构建数据集?
图像分类为例:
问题1:数据量不够
解决方案
- 收集更多数据
- 数据增强
问题2:低质量的分类
解决方案
- 验证每个样本的标签是否正确
- 为分类选择合适的粒度级别
问题3:低质量的数据
解决方案
- 删除糟糕的图像
- 考虑技术的长期应用,以及将在生产中用于获取数据的方法
问题4:不平衡的类别
解决方案
- 收集代表性不足的分类的更多样本
- 对数据进行 过/欠 采样
问题5:不平衡的数据
解决方案
- 裁剪或拉伸数据,使其具有与其他样本相同的宽高比或格式
- 规范化数据,使每个样本的数据都在相同的值范围内
问题6:没有验证集和测试集
解决方案
- 将数据集拆分为三个:训练集、验证集、测试集。
一个开源的数据增强 python 包:https://github.com/albumentations-team/albumentations
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现