随笔档案「2024年11月」 - 数据猎手小k

DriveMLLM：一个专为自动驾驶空间理解任务设计的大规模基准数据集

摘要：2024-11-20，由武汉大学、中国科学院自动化研究所、悉尼科技大学、牛津大学等合创建了DriveMLLM数据集，该数据集是自动驾驶领域首个专为评估多模态大型语言模型（MLLMs）空间理解能力而设计的基准，对于推动自动驾驶技术的发展具有重要意义。一、研究背景：自动驾驶技术的发展需要对3D环境阅读全文

posted @ 2024-11-28 17:48 数据猎手小k 阅读(83) 评论(0) 推荐(0)

CMNEE:首个大规模文档级开源中文军事新闻事件抽取数据集.

摘要：2024-04-18,由国防科技大学大数据与决策实验室联合东南大学和清华大学共同创建了CMNEE数据集，这个数据集为军事领域的事件抽取研究提供了宝贵的资源，解决了该领域数据稀缺的问题，对情报分析和决策辅助等应用具有重要意义。一、研究背景：事件抽取是从非结构化文本中提取结构化信息的过程，它通常被分阅读全文

posted @ 2024-11-26 19:16 数据猎手小k 阅读(206) 评论(0) 推荐(0)

FineTuneBench：由斯坦福大学创建，包含625个训练问题和1075个测试问题，覆盖4个领域。目的评估商业微调API在不同泛化任务中的知识注入能力。

摘要：2024-11-11，由斯坦福大学创建的FineTuneBench数据集，揭示了商业大型语言模型（LLMs）微调API在新知识学习和现有知识更新方面的显著不足，这对于理解和改进LLMs的适应性和可靠性具有重要意义。一、研究背景：随着大型语言模型（LLMs）在软件开发、医疗等领域的广泛应用，确保这阅读全文

posted @ 2024-11-26 14:18 数据猎手小k 阅读(42) 评论(0) 推荐(0)

OSPTrack：一个包含多个生态系统中软件包执行时生成的静态和动态特征的标记数据集，用于识别开源软件中的恶意行为。

摘要：2024-11-22 ，由格拉斯哥大学创建的OSPTrack数据集，目的是通过捕获在隔离环境中执行包和库时生成的特征，包括静态和动态特征，来识别开源软件（OSS）中的恶意指标，特别是在源代码访问受限时，支持在运行时高效检测方法。一、研究背景：开源软件（OSS）已成为互联网和网络供应链链中不可或缺阅读全文

posted @ 2024-11-26 14:16 数据猎手小k 阅读(52) 评论(0) 推荐(0)

ViSTa：一个包含4000多个视频和逐步描述的层次化数据集，用于评估VLMs在不同复杂性任务中的表现。

摘要：2024-11-22，由Google DeepMind和MATS机构创建的ViSTa数据集，为评估视觉语言模型（VLMs）在理解基于顺序的任务方面的能力提供了新的视角，这对于强化学习中的成本降低和安全性提升具有重要意义。一、研究背景强化学习（RL）在需要复杂顺序决策的任务中表现出色，如游戏和机器阅读全文

posted @ 2024-11-26 14:14 数据猎手小k 阅读(53) 评论(0) 推荐(0)

CC-Foundation：包含200,000图像对和1.2百万描述的高质量、多样化的遥感图像变化描述数据集。

摘要：2024-11-18，由北京航空航天大学创建的CCExpert模型，通过引入差异感知整合模块和大规模高质量数据集CC-Foundation，显著提升了遥感图像变化描述（RSICC）任务的性能，为动态地球过程监测提供了创新的自然语言处理和计算机视觉结合方法。一、研究背景：遥感图像变化分析是监测地球阅读全文

posted @ 2024-11-21 11:38 数据猎手小k 阅读(74) 评论(0) 推荐(0)

ADUULM-360：首个涵盖恶劣天气条件的多模态深度估计数据集。

摘要：2024-11-18，由德国乌尔姆大学的测量、控制和微技术研究所创建的ADUULM-360数据集，为自动驾驶领域提供了在不同天气条件下的深度估计新视角，填补了现有数据集在场景多样性和传感器模态上的空白。一、研究背景自动驾驶技术的发展对环境感知系统提出了更高要求，深度估计作为其中的关键技术，能够将阅读全文

posted @ 2024-11-21 11:36 数据猎手小k 阅读(240) 评论(0) 推荐(0)

StainDoc：首个专为文档去污设计的大规模、高分辨率数据集（包含 5000 多对具有不同污渍类型、严重程度和背景的染色和干净文档图像），推动文档图像增强技术发展。

摘要：2024-10-30 ，由惠州大学、上海交通大学、中国科学院深圳先进技术研究院等联合创建的StainDoc数据集，首次为文档去污任务提供了大规模、高分辨率的图像对，极大地推动了文档图像增强技术的发展，特别是在去除文档上的污渍方面。一、研究背景文档图像常常受到各种污渍的，严重影响其可读性，并阻碍了阅读全文

posted @ 2024-11-20 10:14 数据猎手小k 阅读(63) 评论(0) 推荐(0)

PCBS：由麻省理工学院和Google联合创建，揭示1.2M短文本间的相似性的大规模图聚类数据集。

摘要：2024-11-15，由麻省理工学院和Google联合创建的ParClusterers Benchmark Suite (PCBS)数据集，为图聚类算法的评估带来了革命性的意义。这个数据集不仅规模宏大，包含1.2M短文本，而且通过精确的50-最近邻图构建，为聚类算法提供了一个真实且具有挑战性的测试平阅读全文

posted @ 2024-11-20 10:12 数据猎手小k 阅读(47) 评论(0) 推荐(0)

M3SciQA：由耶鲁大学和Allen Institute for AI共同创建首个多模态多文档科学问答基准，全面评估基础模型。

摘要：2024-11-07，由耶鲁大学和Allen Institute for AI共同创建的M3SciQA数据集，目的评估基础模型在多模态和多文档科学问答任务中的表现。M3SCIQA的创建旨在填补现有基准主要关注单文档、纯文本任务的空白，通过模拟研究人员在理解单篇论文时需要的多模态和多文档数据处理流程，阅读全文

posted @ 2024-11-19 10:48 数据猎手小k 阅读(60) 评论(0) 推荐(0)

OpenLS-D是一个自适应开源数据集，旨在支持逻辑综合中的多种机器学习任务。

摘要：2024-11-14，由中国科学院计算技术研究所、鹏城实验室和北京大学等联合创建OpenLSD数据集，目的为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中，通过机器学习方法提升效率和质量。一、研究背阅读全文

posted @ 2024-11-19 10:45 数据猎手小k 阅读(63) 评论(0) 推荐(0)

Chinese SimpleQA：包含3000个高质量问题，覆盖6个主要主题，每个主题下有99个细分主题，用来评估大型语言模型中文事实性能力的基准测试.

摘要：2024-11-12, 由阿里巴巴集团旗下的淘宝和天猫团队创建的Chinese SimpleQA数据集，是首个全面评估语言模型回答简短问题事实性能力的中文基准测试。该数据集的创建，为理解和提升大型语言模型在中文环境下的事实性回答能力提供了重要的工具和标准。一、研究背景：随着大型语言模型（LLMs 阅读全文

posted @ 2024-11-18 18:17 数据猎手小k 阅读(143) 评论(0) 推荐(0)

DAHL：利用由跨越 29 个类别的 8,573 个问题组成的基准数据集，评估大型语言模型在生物医学领域长篇回答的事实准确性。

摘要：2024-11-14，由首尔国立大学创建的DAHL数据集，为评估大型语言模型（LLMs）在生物医学领域长文本生成中的幻觉问题提供了一个重要的工具，这对于提高模型的准确性和可靠性具有重要意义。一、研究背景：随着大型语言模型（LLMs）在自然语言理解和生成领域的迅速发展，它们在生物医学、法律和金融等阅读全文

posted @ 2024-11-16 22:53 数据猎手小k 阅读(44) 评论(0) 推荐(0)

Leopard-Instruct:包含约一百万条高质量的多模态指令调整数据, 专为处理多张富含文本的图像而设计的新型多模态大型语言模型

摘要：2024-11-08，由腾讯 AI 西雅图实验室和圣母大学联合创建的 Leopard-Instruct，数据集主要解决多张富含文本的图像在理解和推理上的挑战，为多模态大型语言模型（MLLMs）的发展提供了新的方向和高质量的训练数据。一、研究背景：在现实世界的应用中，如演示文稿、扫描文档和网页快照阅读全文

posted @ 2024-11-15 17:32 数据猎手小k 阅读(38) 评论(0) 推荐(0)

INQUIRE：一个包含五百万张自然世界图像，涵盖10,000个不同物种的专为专家级文本到图像检索任务设计的新型基准数据集。

摘要：2024-11-05 ，由麻省理工学院、伦敦大学学院等联合创建了Inquire数据集，这是一个包含五百万自然世界图像的文本到图像检索基准测试，目的是挑战多模态视觉-语言模型在专家级查询上的表现。这个数据集的创建，不仅填补了现有数据集在专家级检索任务上的空白，还为AI在生态学和生物多样性研究中的应用提阅读全文

posted @ 2024-11-14 14:23 数据猎手小k 阅读(34) 评论(0) 推荐(0)

CMACD：首个融合用户个性特征（MBTI）和六种情感及微情感的强度标签的中文情感计算数据集。

摘要：2024-11-12，北京理工大学信息与电子学院和中国电子工程设计研究院有限公司共同创建了首个融合个性与情绪强度标签的中文情感计算数据集（CMACD）。这个数据集不仅填补了中文情感数据集的空白，还为心理学、教育、市场营销、金融和政治等领域的研究提供了宝贵的数据支持，推动了机器对复杂人类情感的识别能力阅读全文

posted @ 2024-11-14 11:12 数据猎手小k 阅读(145) 评论(0) 推荐(0)

SCB-Dataset3：首个涵盖从幼儿园到大学的多行为类别学生课堂行为检测数据集

摘要：2023-10-04，由成都东软学院创建首个涵盖从幼儿园到大学的多行为类别学生课堂行为检测数据集（SCB-dataset3），这个数据集通过提供丰富的学生行为图像和标签，为自动检测学生课堂行为提供了重要的资源，有助于分析学生课堂表现和提高教学效果。一、研究背景：随着深度学习技术的发展，自动检测学阅读全文

posted @ 2024-11-14 10:15 数据猎手小k 阅读(810) 评论(0) 推荐(0)

UAV-VisLoc：中国11地大规模无人机视觉定位数据集

摘要：2024-05-16，由中科院、北京邮电大学和香港城市大学联合创建了UAV-VisLoc数据集，这个数据集通过收集中国11个不同地点的无人机图像和卫星地图，为无人机在失去全球导航卫星系统(GNSS)信号时提供精确的经纬度坐标定位，具有重要的实际应用意义。一、研究背景：无人机(UAV)的应用范围日阅读全文

posted @ 2024-11-13 15:49 数据猎手小k 阅读(633) 评论(0) 推荐(0)

HyperGlobal-450K：全球最大规模的高光谱图像数据集

摘要：2024-06-17，由武汉大学领衔的国际研究团队创建了HyperGlobal-450K，这是迄今为止最大规模的高光谱图像数据集。该数据集的构建不仅推动了高光谱图像（HSI）处理技术的发展，还为遥感图像的智能化解析提供了强大的数据支撑，具有重要的科学和应用价值。一、研究背景：随着航空工程、传感器阅读全文

posted @ 2024-11-13 14:52 数据猎手小k 阅读(390) 评论(0) 推荐(0)

ASB：首个全面评估大型语言模型驱动的智能体在面对各种攻击和防御策略时安全性的综合基准框架。

摘要：2024-10-04，由浙江大学和罗格斯大学研究人员的共同努力下，诞生了Agent Security Bench (ASB)，这是首个全面评估大型语言模型（LLM）驱动的智能体在面对各种攻击和防御策略时安全性的综合基准框架。ASB的出现，不仅填补了现有文献在综合评估LLM基础智能体安全性的空白，更为阅读全文

posted @ 2024-11-08 11:21 数据猎手小k 阅读(205) 评论(0) 推荐(0)

CulturalBench ：一个旨在评估大型语言模型在全球不同文化背景下知识掌握情况的基准测试数据集

摘要：2024-10-04，为了提升大型语言模型在不同文化背景下的实用性，华盛顿大学、艾伦人工智能研究所等机构联合创建了CulturalBench。这个数据集包含1,227个由人类编写和验证的问题，覆盖了包括被边缘化地区在内的45个全球区域。CulturalBench的推出，目的通过一个稳健、多样化且具有阅读全文

posted @ 2024-11-08 11:18 数据猎手小k 阅读(89) 评论(0) 推荐(0)

MAN TruckScenes数据集：第一个用于自动驾驶卡车的大规模多模式数据集。

摘要：2024-07-15,为了推进自动驾驶卡车技术的发展并确保其在公共道路上的安全性，由慕尼黑工业大学和MAN Truck & Bus SE联合创建了MAN TruckScenes数据集。数据集首次为研究社区提供了一个包含丰富环境条件下的卡车特定挑战，如拖车遮挡、新型传感器视角和终点站环境的多模态数据集阅读全文

posted @ 2024-11-08 11:12 数据猎手小k 阅读(77) 评论(0) 推荐(0)

CopyMark:首个针对扩散模型的成员推理攻击(MIAs)，检测特定图像是否存在于扩散模型的训练数据集中。

摘要：2024-10-05，南加州大学和伊利诺伊大学香槟分校的研究人员揭示了现有成员推断攻击Membership inference attacks (MIAs)评估中的关键缺陷，并引入了CopyMark，这是一个更现实的MIAs基准，它支持预训练扩散模型、无偏数据集和公平评估流程。一、研究背景：近年阅读全文

posted @ 2024-11-08 10:47 数据猎手小k 阅读(34) 评论(0) 推荐(0)

CliMedBench：包括 14个核心临床场景的 33,735 个问题，评估 LLMs 在七个维度上的能力，一个从真实医疗案例中衍生出来的强大基准测试。

摘要：2024-10-04, 由华东师范大学、哈索·普拉特纳研究所和上海交通大学的研究团队联合创建了CliMedBench。这是一个包含14个专家指导的核心临床场景的综合基准，旨在全面评估LLMs的医疗能力。数据集由顶级三级医院的真实医疗报告和真实的考试练习中提取出33,735个问题构成，其可靠性已经得到阅读全文

posted @ 2024-11-08 10:43 数据猎手小k 阅读(119) 评论(0) 推荐(0)

免费数据集网站

摘要：我推荐找数据集的网站，是国内的数据集搜索引擎：遇见数据集。遇见数据集索引了国内外的大部分网站。首页有最新的数据集推荐：GitHub、Hugging Face、arXiv这些热门站点，都属于日级别的更新。这个站点是从搜索引擎方面去健康最新的数据集，大家如果有关注某个一个特点领域或话题的更新，可以阅读全文

posted @ 2024-11-07 17:29 数据猎手小k 阅读(3253) 评论(0) 推荐(0)

Dyn-VQA:包含1452个动态问题的视觉问答数据集，要求模型灵活提供知识检索解决方案，其中查询、工具和检索时间都是可变的。

摘要：2024-11-05，由阿里巴巴集团创建Dyn-VQA数据集，它包含三种类型的“动态”问题，需要复杂的知识检索策略，这些问题的查询、工具和时间都是可变的。这个数据集的创建对于推动mRAG研究和解决现有VQA数据集无法充分反映启发式mRAGs在获取复杂知识方面的刚性问题具有重要意义。一、研究背景：阅读全文

posted @ 2024-11-07 15:34 数据猎手小k 阅读(113) 评论(0) 推荐(0)

SOEBench：一个包含4000个小目标对象，专门用于评估基于文本的小目标生成和编辑性能。

摘要：2024-11-03，由浙江工业大学、香港大学、悉尼大学等联合创建SOEBench，为量化评估基于文本的小目标生成提供了一个标准化的基准，这对于推动AI和计算机视觉领域中精确图像生成技术的发展具有重要意义。一、研究背景： SOEBench数据集的研究背景基于文本引导的图像编辑技术的发展需求，尤其是阅读全文

posted @ 2024-11-06 11:07 数据猎手小k 阅读(28) 评论(0) 推荐(0)

GS-Blur数据集：首个基于3D场景合成的156,209对多样化真实感模糊图像数据集。

摘要：2024-10-31，由韩国首尔国立大学的研究团队创建的GS-Blur数据集，通过3D场景重建和相机视角移动合成了多样化的真实感模糊图像，为图像去模糊领域提供了一个大规模、高覆盖度的新工具，显著提升了去模糊算法在真实世界场景中的泛化能力。一、研究背景：图像去模糊是图像恢复领域的一个重要挑战，尤其阅读全文

posted @ 2024-11-05 15:39 数据猎手小k 阅读(108) 评论(0) 推荐(0)

AndroidLab:一个系统化的Android代理框架，包含操作环境和可复现的基准测试，支持大型语言模型和多模态模型。

摘要：2024-10-31，由清华大学和北京大学共同创建的AndroidLab数据集，为安卓自主代理的训练和评估提供了一个包含操作环境、行动空间和可复现基准的系统框架，这对于推动安卓代理技术的发展具有重要意义。一、研究背景：随着自主代理与现实世界互动中的重要性日益增加，特别是安卓代理，已成为近期频繁提阅读全文

posted @ 2024-11-05 11:52 数据猎手小k 阅读(54) 评论(0) 推荐(0)

AIDOVECL数据集：包含超过15000张AI生成的车辆图像数据集，目的解决旨在解决眼水平分类和定位问题。

摘要：2024-11-01，由伊利诺伊大学厄巴纳-香槟分校的研究团队创建的AIDOVECL数据集，通过AI生成的车辆图像，显著减少了手动标注工作，为自动驾驶、城市规划和环境监测等领域提供了丰富的眼水平车辆图像资源。一、研究背景：随着计算机视觉技术的发展，自动驾驶、城市规划和环境监测等领域对于车辆识别技阅读全文

posted @ 2024-11-04 23:21 数据猎手小k 阅读(90) 评论(0) 推荐(0)

MM-CamObj数据集：由上海交通大学创建，增强现有多模态大语言模型在伪装场景中能力

摘要：2024-09-24 ，由上海交通大学创建：MM-CamObj 数据集。用来增强现有大型视觉语言模型（ LVLM ）在伪装对象场景中的能力。数据集包括两个子集： CamObj-Align 和 CamObj-Instruct，分别用于 LVLM 训练的对齐和指令调整阶段。一、背景：在自然界中，动物阅读全文

posted @ 2024-11-01 10:51 数据猎手小k 阅读(53) 评论(0) 推荐(0)

AutoBench-V：一个专为大型视觉语言模型基准测试而设计的全自动框架

摘要：2024-10-29，由美国圣母大学、MBZUAI和KAUST联合创建了AutoBench-V，意义在于提供了一个自动化的框架，能够根据模型能力的特定方面对大型视觉语言模型（LVLMs）进行基准测试，从而减少人为成本，提高评估的灵活性和效率。一、研究背景：随着大型视觉语言模型（LVLMs）的发展阅读全文

posted @ 2024-11-01 10:35 数据猎手小k 阅读(46) 评论(0) 推荐(0)

11 2024 档案

公告