随笔档案「2024年10月」 - 数据猎手小k

SciER：首个大规模科学文档中的实体和关系抽取数据集

摘要：2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关阅读全文

posted @ 2024-10-31 10:40 数据猎手小k 阅读(104) 评论(0) 推荐(0)

SPOTS-10数据集：一个包含50,000张32×32灰度图像的数据集，专注于十种动物的独特图案识别，用于评估机器学习算法。

摘要：2024-10-28，由英国林肯大学工程与物理科学学院创建SPOTS-10，数据集主要解决夜间图像中基于动物独特体纹识别的复杂计算机视觉任务，为机器学习算法提供了宝贵的评估资源。一、研究背景：动物模式识别，如条纹、斑点或其他标记，在夜间图像中识别动物是一项复杂的计算机视觉任务，对于野生动物研究、阅读全文

posted @ 2024-10-31 10:36 数据猎手小k 阅读(138) 评论(0) 推荐(0)

Faces in Things数据集: 由麻省理工学院、微软等联合发布，探索人类视觉错觉的新里程碑

摘要：2024-09-24，由麻省理工学院、微软、丰田研究院、NVIDIA联合发布的 Faces in Things，为我们打开了研究人类视觉错觉——尤其是面部错觉（Pareidolia）的新篇章。专注于人类视觉系统如何在各种随机刺激中检测到类似面孔的结构，例如在咖啡污渍或天空中的云朵中看到面孔。一、背阅读全文

posted @ 2024-10-30 11:18 数据猎手小k 阅读(80) 评论(0) 推荐(0)

CytoDArk0数据集:由伦敦南岸大学和帕多瓦大学联合创建，专注于大脑皮层的细胞实例分割

摘要：2024-09-06，由伦敦南岸大学和帕多瓦大学联合发布的CISCA，是一个基于深度学习进行细胞实例分割和分类的新型方法。这项研究不仅提出了一个创新的网络架构，还引入了一个新的公开数据集CytoDArk0，为组织病理学图像分析提供了新的视角。一、背景：细胞实例分割与分类在医学和生物学研究中，从阅读全文

posted @ 2024-10-30 11:15 数据猎手小k 阅读(112) 评论(0) 推荐(0)

Infinity-MM数据集：一个包含 4000 万个样本的开源视觉语言模型的大规模多模态指令数据集。

摘要：2024-10-15，由北京智源人工智能研究院、北京交通大学、北京邮电大学等机构联合创建了Infinity-MM，一个包含4000万个样本的大规模多模态指令数据集。这个数据集通过严格的质量过滤和去重，显著提升了开源模型与闭源模型性能的差距，为开源视觉语言模型的发展带来了重要意义。一、研究背景：近阅读全文

posted @ 2024-10-30 11:10 数据猎手小k 阅读(82) 评论(0) 推荐(0)

CPB数据集：由斯坦福大学发布，一个新的视频问题回答任务基准，能够连续且全面处理视频数据

摘要：2024-08-15，由斯坦福大学发布的Continuous Perception Benchmark（CPB），一个推动视频模型模仿人类连续感知能力的新基准。一、背景：视频理解的重要性在计算机视觉领域，视频理解一直是一个基础而富有挑战的任务，它对于从监控到自动驾驶等多个领域都至关重要。现有阅读全文

posted @ 2024-10-29 10:19 数据猎手小k 阅读(103) 评论(0) 推荐(0)

FRAMES数据集：由谷歌和哈佛大学联合创建一个综合评估数据集，目的测试检索增强生成系统在事实性、检索准确性和推理方面的能力

摘要：2024-09-19, 由Google 和 Harvard University 联合发布的FRAMES，一个综合评估数据集，目的评估 LLMs 在统一框架中跨多个文档检索和推理的能力。一、背景：大型语言模型（LLMs）在各种认知任务中表现出显著的性能改进。一个新兴的应用程序正在使用 LLM 阅读全文

posted @ 2024-10-29 10:16 数据猎手小k 阅读(153) 评论(0) 推荐(0)

GeoBiked数据集：由宝马集团和奥格斯堡大学联合创建，具有几何特征和自动标记技术的数据集，可在工程设计中实现深度生成模型。

摘要：2024-09-25，由BMW集团和奥格斯堡大学联合创建GeoBiked数据集，以在工程设计中启用深度生成模型（DGM），并提出了通过利用大规模基础模型自动化数据标注的方法。一、背景快速发展的机器学习领域强调了高质量数据集在推动技术突破中的关键作用。在计算机视觉中，高质量、公开可用的数据集引入起阅读全文

posted @ 2024-10-29 10:14 数据猎手小k 阅读(34) 评论(0) 推荐(0)

FlowBench数据集：由爱荷华州立大学创建，目前公开可用的最大的流动物理学数据集

摘要：2024-09-27 ，由爱荷华州立大学创建FlowBench。这是一个大规模的流体动力学模拟数据集，目的推动复杂几何形状下流动物理学的机器学习模型的发展和评估。一、研究背景在航空航天、汽车制造、环境工程等领域，流体动力学的准确模拟对于设计和性能有着直接的影响。然而，传统的模拟方法成本高昂，需要阅读全文

posted @ 2024-10-29 10:11 数据猎手小k 阅读(93) 评论(0) 推荐(0)

W-Bench：第一个全面的基准测试，对各种图像编辑技术（图像再生、全局编辑、局部编辑和图像到视频生成）评估水印方法的稳健性。

摘要：2024-10-24，由南洋理工大学和苏黎世联邦理工学院共同创建W-Bench，这是一个全面的基准测试，旨在评估水印方法对于包括图像再生、全局编辑、局部编辑和图像到视频生成在内的广泛图像编辑技术的鲁棒性。这个数据集的创建对于版权保护和知识产权的维护具有重要意义，尤其是在面对由大规模文本到图像模型驱动阅读全文

posted @ 2024-10-28 11:54 数据猎手小k 阅读(63) 评论(0) 推荐(0)

ChatSearch：一个基于多轮多模态对话上下文的图像检索数据集，它要求检索系统能够在对话中准确找到目标图像。

摘要：2024-10-24，由中国科学院自动化研究所与字节跳动公司合作创建了ChatSearch，这一数据集通过多轮对话上下文来检索图像，极大地推动了开放领域内对话式图像检索技术的发展。一、研究背景：在人工智能领域，图像检索技术已经从基于内容的搜索发展到了更加自然和直观的对话式交互。这种对话式图像检索阅读全文

posted @ 2024-10-28 09:00 数据猎手小k 阅读(48) 评论(0) 推荐(0)

OVT-B：迄今为止最大的开放词汇多目标跟踪数据集

摘要：2024-10-23，由浙江大学软件技术学院和中国科学院深圳先进技术研究院等联合创建OVT-B，这个数据集的规模和多样性为开放词汇多目标跟踪（OVMOT）研究开辟了新的道路。一、研究背景：在人工智能领域，开放词汇目标感知正成为一个重要议题，旨在识别在训练期间未见过的新类别对象。尽管在单张图像中的阅读全文

posted @ 2024-10-25 18:13 数据猎手小k 阅读(93) 评论(0) 推荐(0)

CCI3.0-HQ数据集：一个500GB的高质量中文预训练数据集

摘要：2024-09-19，由北京人工智能研究院（BAAI）创建的CCI3.0-HQ数据集，是一个通过新颖的两阶段混合过滤流程显著提升数据质量的高质量子集。这个数据集的意义在于，它不仅提高了数据的纯净度，还通过实验表明，使用该数据集训练的模型在多个基准测试中取得了优于现有中文数据集的性能，为中文语言模型的阅读全文

posted @ 2024-10-25 14:30 数据猎手小k 阅读(104) 评论(0) 推荐(0)

MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注.

摘要：2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据阅读全文

posted @ 2024-10-25 11:11 数据猎手小k 阅读(87) 评论(0) 推荐(0)

Diffusion Deepfake Speech ：利用扩散模型生成的深度伪造语音数据集

摘要：2024-10-09，由捷克布尔诺理工大学的研究人员创建了Diffusion Deepfake Speech，一个基于扩散模型的深度伪造语音数据集，对于评估和改进现有的深度伪造检测系统具有重要意义。一、研究背景：随着人工智能和机器学习技术的进步，合成语音生成技术已经变得足够先进，以至于能够欺骗系阅读全文

posted @ 2024-10-25 10:06 数据猎手小k 阅读(109) 评论(0) 推荐(0)

Omni-MATH数据集：超过33个子领域的通用奥林匹克级别的数学数据集.

摘要：2024-10-10,北京大学联合多个机构和企业创建了Omni-MATH数据集，是一个大型语言模型在奥林匹克数学竞赛级别的数学推理能力进行评估的综合基准。这个数据集的创建意味着我们有了更严格的工具来测试和提高模型在解决复杂数学问题上的性能。一、研究背景：随着大型语言模型在数学推理能力上的显著进步阅读全文

posted @ 2024-10-25 10:03 数据猎手小k 阅读(184) 评论(0) 推荐(0)

BC-MRI-SEG数据集：首个统一的乳腺癌MRI肿瘤分割基准，推动深度学习模型的泛化能力

摘要：2024-04-22，由美国中佛罗里达大学计算机视觉研究中心创建了BC-MRI-SEG，这是基于公开可用的MRI数据集的二元乳腺癌肿瘤分割的基准。这个数据集的创建，不仅为医学影像社区提供了易于访问的四个公共乳腺癌MRI数据集，还通过比较最先进的深度学习方法，为临床设置中的稳健和适应性强的模型提供了评阅读全文

posted @ 2024-10-25 09:00 数据猎手小k 阅读(119) 评论(0) 推荐(0)

MTU-Bench数据集：用于提升LLMs在多轮对话和多工具使用场景下的性能

摘要：2024-10-15，由阿里巴巴集团联合中国科学院大学和滑铁卢大学提出了一个创新的大型语言模型（LLMs）多粒度工具使用基准测试数据集——MTU-Bench。这个数据集的重要意义在于它通过模拟真实世界中的工具使用场景，提供了一个全面的评估框架，能够细致地衡量和提升LLMs在多轮对话和多工具使用场景下阅读全文

posted @ 2024-10-24 16:42 数据猎手小k 阅读(268) 评论(0) 推荐(0)

Comp-DD数据集：通过从 ImageNet-1K 中选择十六个子集构建而成，其中包含八个简单子集和八个困难子集。用于评估和提升数据集蒸馏在复杂场景下性能的基准测试

摘要：2024-10-23，由新加坡国立大学和卡内基梅隆大学的研究团队等提出了一种新的数据集蒸馏方法EDF（Emphasize Discriminative Features），它通过Grad-CAM激活图增强合成图像中的关键判别区域，以提高在复杂场景下的性能。这一方法的意义在于，它能够显著提升在如Ima 阅读全文

posted @ 2024-10-24 15:15 数据猎手小k 阅读(68) 评论(0) 推荐(0)

AudioSetCaps数据集：包含190万对来自AudioSet录音的音频-字幕对。

摘要：2024-10-21，由西北工业大学、西安联丰声学技术有限公司、南洋理工大学、萨里大学和中国科学院声学研究所创建了AudioSetCaps数据集，包含190万对来自AudioSet录音的音频-字幕对。这个数据集在音频-文本检索和自动音频字幕两项下游任务上展现了卓越的性能，证明了其生成字幕的高质量。值阅读全文

posted @ 2024-10-24 14:20 数据猎手小k 阅读(106) 评论(0) 推荐(0)

VideoCube：2024-10-03，由中国科学院自动化研究院创建，一个高质量、大规模的基准测试数据集，目的通过模拟人类视觉跟踪能力，推动目标跟踪算法的智能化发展。

摘要：2024-10-03，由中国科学院自动化研究所创建的VideoCube数据集，探索如何使计算机视觉任务在目标跟踪方面更加接近人类的能力。这个数据集的意义在于提供了一个高质量、大规模的基准测试平台，能够模拟真实世界的复杂环境，为衡量和提升目标跟踪算法的智能水平提供了重要的科学评估工具。一、研究背景：阅读全文

posted @ 2024-10-24 10:28 数据猎手小k 阅读(50) 评论(0) 推荐(0)

ALLO数据集：首个为月球轨道机器人近距离操作设计的异常检测基准开源数据集。

摘要：2024-09-30，由多伦多大学航天与地面自主机器人系统实验室（STARS）与多伦多机器人与人工智能实验室（TRAIL）联合MDA太空公司，共同创建了ALLO（Anomaly Localization in Lunar Orbit）数据集。这个数据集填补了月球轨道空间操作异常检测领域的空白，为机器阅读全文

posted @ 2024-10-24 10:23 数据猎手小k 阅读(67) 评论(0) 推荐(0)

Curated Comparative 数据集：包含20种视觉主题、超过10,000张图片的数据集，目的通过深度学习和机器学习模型来识别和分类电影和视觉艺术中的视觉主题。

摘要：2024-10-21，由西班牙庞培法布拉大学的研究团队创建的Curated Comparative Dataset，目的通过机器学习模型自动识别和分类这些视觉主题，对艺术历史和视觉文化领域的研究人员以及艺术家和内容创作者具有重要意义。一、研究背景：在电影艺术中，视觉主题是具有艺术或美学意义的反复阅读全文

posted @ 2024-10-23 16:50 数据猎手小k 阅读(65) 评论(0) 推荐(0)

Bench4Merge：一个提升自动驾驶车辆在复杂交通场景中并车能力的综合性评估平台。

摘要：2024-10-21，由清华大学人工智能产业研究院（AIR）提出的Bench4Merge数据集，目的通过大规模数据集训练的车辆模型来增强评估自动驾驶车辆在高密度交通中合并场景的复杂性和多样性，为自动驾驶领域提供了一个更为真实和全面的评估工具。一、研究背景：随着自动驾驶技术的发展，自动驾驶车辆在高阅读全文

posted @ 2024-10-23 16:01 数据猎手小k 阅读(32) 评论(0) 推荐(0)

MultiOrg：一个包括 400 多张高分辨率 2D 显微镜图像和 60,000 多个类器官的精选注释。为具有不确定性量化的对象检测任务量身定制的综合类器官数据集

摘要：2024-10-19，由德国Helmholtz慕尼黑研究中心的团队创建的MultiOrg数据集，是专门针对目标检测任务而设计的，包含了超过400张高分辨率的2D显微镜图像和超过60,000个类器官的标注，特别地，它包含了由两位专家在不同时间点独立标注的三组测试数据标签，为量化标注不确定性提供了新的视阅读全文

posted @ 2024-10-23 10:18 数据猎手小k 阅读(154) 评论(0) 推荐(0)

Acti数据集：首个全面手动标注的汽车网络安全威胁情报语料库，包含908份真实报告，涵盖3678个句子、8195个安全实体和4852个语义关系。

摘要：2024-10-19，由北京航空航天大学创建的Acti,数据集通过整合和标注大量网络安全报告，为研究人员提供了一个宝贵的资源，以实现主动安全防御。一、研究背景：随着自动驾驶技术的发展，车辆网络安全问题日益凸显。黑客攻击、数据泄露等网络安全威胁对自动驾驶车辆的安全运行构成了严重挑战。为了有效应对这阅读全文

posted @ 2024-10-23 10:16 数据猎手小k 阅读(75) 评论(0) 推荐(0)

MultiChartQA数据集：一个评估MLLM多图表信息整合与推理的新基准数据集

摘要：2024-10-18，由西安交通大学和圣母大学的研究人员提出了MultiChartQA，一个新的基准数据集，目的评估多模态大型语言模型（MLLMs）在处理多图表问题时的能力。这个数据集的创建填补了现有基准测试在多图表场景下的空白，对于推动MLLMs在实际应用中的多图表理解能力具有重要意义。一、研究阅读全文

posted @ 2024-10-22 15:33 数据猎手小k 阅读(61) 评论(0) 推荐(0)

Pseudo Multi-Camera Editing 数据集：通过常规视频生成的伪标记多摄像机推荐数据集，显著提升模型在未知领域的准确性。

摘要：2024-10-19，由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法，通过将常规视频转换成伪标记的多摄像机视角推荐数据集，有效解决了在未知领域中模型泛化能力差的问题。数据集的创建，为电影、电视和其他媒体制作中的摄像机选择提供了有力的辅助，显著提高了模型在目标领域的准确性，实阅读全文

posted @ 2024-10-22 11:28 数据猎手小k 阅读(35) 评论(0) 推荐(0)

WORFBENCH：一个创新的评估基准，目的是全面测试大型语言模型在生成复杂工作流方面的性能。

摘要：2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH，一个用于评估大型语言模型（LLMs）生成工作流能力的基准测试。它包含了一系列的测试和评估协议，用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBENCH 通过模拟多种应用场景和复杂的图结构工作流，阅读全文

posted @ 2024-10-22 10:35 数据猎手小k 阅读(58) 评论(0) 推荐(0)

MT-Pref数据集：包含18种语言的18k实例，涵盖多个领域。实验表明它能有效提升Tower模型在WMT23和FLORES基准测试中的翻译质量。

摘要：2024-10-10，由电信研究所、里斯本大学等联合创建MT-Pref数据集，它包含18种语言方向的18k实例，覆盖了2022年后的多个领域文本。通过在WMT23和FLORES基准测试上的实验，我们展示了使用MT-Pref数据集对Tower模型进行对齐可以显著提高翻译质量。一、研究背景：大型语言阅读全文

posted @ 2024-10-22 10:33 数据猎手小k 阅读(69) 评论(0) 推荐(0)

Cancer-Net BCa-S：是一个基于合成相关扩散成像（CDIs）的深度放射组学数据集，用于预测乳腺癌的SBR分级。

摘要：2023-04-12，由加拿大滑铁卢大学的视觉和图像处理实验室创建了Cancer-Net BCa-S数据集，提供了一种基于合成相关扩散成像（CDIs）的深度学习方法来预测乳腺癌的Scarff-Bloom-Richardson（SBR）分级，从而避免了传统活检带来的压力和成本。一、研究背景：乳腺癌阅读全文

posted @ 2024-10-18 10:00 数据猎手小k 阅读(52) 评论(0) 推荐(0)

FoundTS数据集：是一个全面覆盖多个领域的多变量时间序列数据集合，目的为时间序列预测模型提供一个标准化和综合性的评估基准。

摘要：2024-10-16，由华东师范大学和松鼠AI联合创建了FoundTS数据集，是一个全面覆盖多个领域的多变量时间序列数据集合，目的为时间序列预测模型提供一个标准化和综合性的评估基准。一、研究背景：时序预测（TSF）在金融、气象服务、能源管理等多个领域中扮演着关键角色。尽管当前出现了许多TSF方法阅读全文

posted @ 2024-10-18 09:30 数据猎手小k 阅读(401) 评论(1) 推荐(0)

PreCT-160K数据集：包含160K个CT体积的大规模医学图像预训练数据集，覆盖了100多种解剖结构。迄今为止最大规模的医学图像预训练数据集

摘要：2024-10-08，由香港科技大学的计算机科学与工程系创建了PreCT-160K，这是迄今为止最大规模的医学图像预训练数据集。该数据集包含了160K个CT体积，覆盖了100多种解剖结构，对于推动医学图像分析领域的发展具有重要意义，特别是在标签效率和模型泛化能力方面。一、研究背景：在医学图像分析阅读全文

posted @ 2024-10-17 10:24 数据猎手小k 阅读(244) 评论(0) 推荐(0)

TemporalBench：一个专注于细粒度时间理解的多模态视频理解的新基准。

摘要：2024-10-15，由威斯康星大学麦迪逊分校、微软研究院雷德蒙德等机构联合创建了TemporalBench，它通过大约10K个视频问答对，提供了一个独特的测试平台，用以评估各种时间理解和推理能力，如动作频率、运动幅度、事件顺序等。一、研究背景：在多模态视频理解和生成领域，细粒度的时间动态理解至阅读全文

posted @ 2024-10-17 10:19 数据猎手小k 阅读(48) 评论(0) 推荐(0)

AgentHarm：一个包含110个明确恶意任务（增强后共440个）的基准测试，覆盖11个伤害类别，目的评估LLM代理在遭受攻击后是否仍能完成多步骤任务，同时衡量其对有害请求的拒绝能力。

摘要：2024-10-12，由Gray Swan AI和UK AI Safety Institute共同创建了AgentHarm，这是一个开创性的基准测试，目的衡量大型语言模型（LLM）代理执行有害任务的倾向和能力。这个数据集不仅覆盖了广泛的恶意任务类别，而且还特别设计了模型在遭受攻击后仍能保持执行多步骤阅读全文

posted @ 2024-10-16 10:03 数据猎手小k 阅读(153) 评论(0) 推荐(0)

KinDEL数据集：包含8100万个小分子的库，为激酶抑制剂的发现提供了一个丰富且功能强大的资源。

摘要：2024-10-12，在药物发现领域，Insitro公司创建了KinDEL，一个针对两个激酶靶点（MAPK14和DDR1）的大规模、公开可用的DNA编码库数据集。这个数据集不仅推动了计算技术的发展，还通过不同的机器学习技术，为识别潜在药物提供了预测模型，具有重要的科研和临床意义。一、研究背景： D 阅读全文

posted @ 2024-10-15 15:34 数据猎手小k 阅读(105) 评论(0) 推荐(0)

HazyDet数据集：包含 383,000 雾霾场景中基于无人机的目标检测设计的大规模数据集

摘要：2024-09-30，由中国人民解放军陆军工程大学、南开大学、南京邮电大学和南京理工大学的研究人员联合创建了HazyDet数据集，目的解决无人机在恶劣天气条件下的环境感知问题。这个数据集的推出，极大地填补了相关基准测试的空白，为无人机目标检测技术的发展和评估提供了宝贵的资源。一、研究背景：随着无阅读全文

posted @ 2024-10-15 10:20 数据猎手小k 阅读(669) 评论(0) 推荐(0)

PDT 数据集：首个基于无人机的高精密度树木病虫害目标检测数据集

摘要：2024-09-24，由中国山东计算机科学中心、北京大学等机构联合创建了Pests and Diseases Tree（PDT）数据集，目的解决农业领域中病虫害检测模型开发中专业数据集缺失的问题。通过集成公共数据和网络数据，进一步推出了Common Weed and Crop数据集，目的增强模型的分阅读全文

posted @ 2024-10-15 10:17 数据猎手小k 阅读(347) 评论(0) 推荐(0)

Alberta Wells数据集：首个包含超过213,000个油气井的大规模高质量基准数据集,它们是温室气体和其他污染物的重要来源,助力环境监测与气候变化。

摘要：2024-10-11，由Mila – Quebec AI Institute和McGill University等机构创建了首个大规模油井检测数据集，这个数据集的意义在于提供了一个工具，能够通过卫星图像识别和定位全球数以百万计的废弃油气井，这对于减少温室气体排放和保护环境具有重大意义。一、研究背景阅读全文

posted @ 2024-10-14 16:41 数据猎手小k 阅读(78) 评论(0) 推荐(0)

Multi-class Surgical Anatomy ：一个通过解剖学感知的扩散模型合成的多类别手术数据集，包含了详细的解剖标注，用于提高手术场景的理解能力。

摘要：2024-10-10，由德国NCT/UCC Dresden、DKFZ Heidelberg等机构联合创建Multi-class Surgical Anatomy Dataset，通过使用解剖学感知的扩散模型，有效地解决了在生成过程中保持器官结构和纹理的挑战，为手术场景的语义分割和其他下游任务提供了宝阅读全文

posted @ 2024-10-14 10:56 数据猎手小k 阅读(43) 评论(0) 推荐(0)

包含957,174个局部最优解，为优化算法评估提供了新的视角

摘要：2024-10-03, 英国诺丁汉大学数学科学学院的Gary R. Mirams教授团队创建了一个基于英国地形的二维优化基准数据集,该数据集包含了经过修改的英国地形数据，并从中识别出了957,174个局部最优解，为优化算法的评估提供了新的视角。一、研究背景：在优化算法领域，真实世界的复杂性一直是阅读全文

posted @ 2024-10-12 13:56 数据猎手小k 阅读(31) 评论(0) 推荐(0)

OpenUAV：首个专为现实无人机视觉语言导航设计的大规模轨迹数据集，由大约 12k 个轨迹组成，涵盖了多种环境和复杂的飞行动态。

摘要：2024-10-10，由北京航空航天大学人工智能研究所、香港中文大学MMLab以及感知与交互智能中心共同创建了OpenUAV数据集，首个专为现实无人机（UAV）视觉语言导航（VLN）任务设计的大型轨迹数据集，该数据集通过模拟真实环境和飞行动态，为无人机导航研究提供了重要的资源和挑战。一、研究背景：阅读全文

posted @ 2024-10-11 14:52 数据猎手小k 阅读(433) 评论(0) 推荐(0)

Dynamic PDB：一个大规模的蛋白质动态行为数据集，通过分子动力学模拟捕捉了约12.6K个蛋白质的构象变化。每个蛋白质都经过持续 1 微秒的全原子分子动力学（MD）模拟以捕获构象变化。

摘要：2024-09-01 ,在蛋白质结构研究领域，复旦大学的研究团队创建了Dynamic PDB数据集，这是一种新的数据集 Dynamic PDB，目的在捕获蛋白质的动态行为，以及一套全面的物理特性，例如原子速度和力、势能和动能以及模拟环境的温度。弥补了传统静态蛋白质数据库的不足，为深入理解蛋白质的动态阅读全文

posted @ 2024-10-10 18:50 数据猎手小k 阅读(102) 评论(0) 推荐(0)

CasiMedicos-Arg数据集：首个多语言医疗问答数据集，医生对患者解释库：由558 个临床病例组成，标注了5021个主张，2313个前提，2431个支持关系和1106个攻击关系。

摘要：2024-10-08，由法国尼斯大学CNRS、Inria、I3S以及西班牙巴斯克大学HiTZ中心的研究人员们创建了首个多语言医疗问答数据集CasiMedicos-Arg，在医学领域，AI系统的决策不仅需要准确，还需要能够被医生和患者理解。该数据集其中包含正确和错误的诊断结果，并由医生提供自然语言解释阅读全文

posted @ 2024-10-10 13:38 数据猎手小k 阅读(49) 评论(0) 推荐(0)

MIBench：首个模型反演攻击与防御基准测试工具。不仅集成了16种最先进的攻击和防御方法，还提供了9种常用评估协议，为标准化和公平的评估分析提供了便利。

摘要：2024-10-08，由哈尔滨工业大学（深圳）和清华大学深圳国际研究生院的研究人员联合创建的MIBench，作为首个模型反演攻击和防御的实用基准测试，不仅集成了16种最先进的攻击和防御方法，还提供了9种常用评估协议，为标准化和公平的评估分析提供了便利。MIBench的建立，目的通过全面比较和分析不同阅读全文

posted @ 2024-10-10 11:04 数据猎手小k 阅读(61) 评论(0) 推荐(0)

EA-MD-QD数据集：一个包含欧元区和主要成员国季度和月度宏观经济时间序列数据的大型数据集。

摘要：2024-10-07，由意大利博洛尼亚大学经济系创建 EA-MD-QD 的大型数据集，数据集涵盖了欧元区及其十个主要成员国的季度和月度宏观经济时间序列数据。EA-MD-QD 的创建为宏观经济研究提供了宝贵资源，使其成为分析欧元区经济结果和政策分析的重要工具。一、研究背景近年来，随着“数据革命”的阅读全文

posted @ 2024-10-10 11:02 数据猎手小k 阅读(43) 评论(0) 推荐(0)

OmniCorpus数据集：最大（百亿级别）多模态数据集

摘要：2024-06-12 ，由上海人工智能实验室、哈尔滨工业大学、南京大学、复旦大学等联合创建OmniCorpus，一个达到百亿级别的图文交错数据集。它不仅规模空前，更以其多元化的数据来源和高质量的数据内容，为多模态大语言模型的研究提供了坚实的数据基础。一、研究背景：随着互联网数据的爆炸性增长，如何阅读全文

posted @ 2024-10-08 16:35 数据猎手小k 阅读(296) 评论(0) 推荐(0)

ProGraph数据集：NeurIPS发布首个面向专业人士的大型语言模型图分析数据集

摘要：2024-09-29 ，NeurIPS发布首个面向专业人士的大型语言模型图分析数据集GraphPro。这是首个目的测试和提升LLMs在图分析任务上表现的基准。该数据集的创建不仅填补了现有基准测试的空白，还为LLMs在图分析领域的应用提供了新的视角。一、研究背景：图分析在多个领域中都扮演着至关重要阅读全文

posted @ 2024-10-08 15:59 数据猎手小k 阅读(30) 评论(0) 推荐(0)

MHAD数据集：由京东健康、华中科技大学和浙江大学联合收集，最全面包含多角度、多活动和多生理信号的家庭视频生理学数据集

摘要：2024-08-30，由京东健康、华中科技大学和浙江大学联合收集的第一个真实家庭环境中的多模态数据集MHAD，包含不同拍摄角度和各种家庭场景。它包含了迄今为止最全面的生理信号，是计算机视觉、机器学习和生物医学工程等多个学术研究领域的宝贵资源。一、研究背景：在家庭环境中实现非接触式生理监测，对于健阅读全文

posted @ 2024-10-08 15:55 数据猎手小k 阅读(115) 评论(0) 推荐(0)

STAR数据集：首个用于大型卫星图像中场景图生成大规模数据集

摘要：2024-06-12，在遥感图像领域，由武汉大学等机构联合创建的STAR数据集，标志着场景图生成技术在大规模、高分辨率卫星图像中的新突破。一、研究背景：场景图生成(Scene Graph Generation, SGG)技术在自然图像中已取得显著进展，但在高分辨率的卫星图像(Satellite 阅读全文

posted @ 2024-10-06 20:24 数据猎手小k 阅读(121) 评论(0) 推荐(0)

JUPITER Benchmark Suite：是一套全面的23个基准测试程序，目的支持JUPITER——欧洲首台E级超级计算机的采购

摘要：2024-08-30，由于利希超级计算中心创建JUPITER Benchmark Suite，这是一个全面的 23 个基准测试程序集合，经过精心记录和设计，目的支持购买欧洲第一台百万兆次级超级计算机 JUPITER。一、研究背景：随着E级超级计算机时代的到来，HPC领域正经历一场革命。在这个时阅读全文

posted @ 2024-10-06 20:21 数据猎手小k 阅读(23) 评论(0) 推荐(0)

10 2024 档案

公告