摘要:
2024-11-30 ,由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型(LLM)和人工智能应用的训练提供丰富的数据资源。 一、让我们一起来看一下WebRover WebRover通过智能网络爬虫技术,自动从网络中提取与特定主题相关的内容,并 阅读全文
摘要:
2024-10-30,由Spawning台创建的Public Domain 12M(PD12M)数据集,包含了1240万张高质量的公共领域和CC0许可的图像及其合成标题,旨在训练文本到图像的模型。这个数据集不仅规模巨大,能够训练基础模型,同时最小化版权问题,还引入了社区驱动的数据治理机制,以减少伤害 阅读全文
摘要:
2024-06-01,由谷歌 DeepMind 联手斯坦福大学等机构联合推出Open X-Embodiment Dataset。这是迄今为止最大的开源真实机器人数据集。它包含 100 多万条真实机器人轨迹,涵盖 22 个机器人实例,从单臂机器人到双手机器人和四足机器人。为机器人学习领域提供了一个全新 阅读全文