随笔档案「2024年12月4日」：WebRover ：一个功能强大的 Python 库，用... - 数据猎手小k

2024年12月4日

WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集，专为训练大型语言模型和 AI 应用程序而设计。

摘要： 2024-11-30 ，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。一、让我们一起来看一下WebRover WebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并阅读全文

posted @ 2024-12-04 15:04 数据猎手小k 阅读(57) 评论(0) 推荐(0)

Public Domain 12M：迄今最大的公共领域图像-文本数据集，采用创新治理机制.

摘要： 2024-10-30,由Spawning台创建的Public Domain 12M（PD12M）数据集，包含了1240万张高质量的公共领域和CC0许可的图像及其合成标题，旨在训练文本到图像的模型。这个数据集不仅规模巨大，能够训练基础模型，同时最小化版权问题，还引入了社区驱动的数据治理机制，以减少伤害阅读全文

posted @ 2024-12-04 14:13 数据猎手小k 阅读(101) 评论(0) 推荐(0)

Open X-Embodiment Dataset：迄今为止最大的开源真实机器人数据集,包含超过1百万真实机器人轨迹的大规模数据集，覆盖了来自全球多个研究机构的22个不同机器人平台。

摘要： 2024-06-01,由谷歌 DeepMind 联手斯坦福大学等机构联合推出Open X-Embodiment Dataset。这是迄今为止最大的开源真实机器人数据集。它包含 100 多万条真实机器人轨迹，涵盖 22 个机器人实例，从单臂机器人到双手机器人和四足机器人。为机器人学习领域提供了一个全新阅读全文

posted @ 2024-12-04 13:38 数据猎手小k 阅读(459) 评论(0) 推荐(0)

公告