数据猎手小k - 博客园

2024年10月10日

CasiMedicos-Arg数据集：首个多语言医疗问答数据集，医生对患者解释库：由558 个临床病例组成，标注了5021个主张，2313个前提，2431个支持关系和1106个攻击关系。

摘要： 2024-10-08，由法国尼斯大学CNRS、Inria、I3S以及西班牙巴斯克大学HiTZ中心的研究人员们创建了首个多语言医疗问答数据集CasiMedicos-Arg，在医学领域，AI系统的决策不仅需要准确，还需要能够被医生和患者理解。该数据集其中包含正确和错误的诊断结果，并由医生提供自然语言解释阅读全文

posted @ 2024-10-10 13:38 数据猎手小k 阅读(48) 评论(0) 推荐(0)

MIBench：首个模型反演攻击与防御基准测试工具。不仅集成了16种最先进的攻击和防御方法，还提供了9种常用评估协议，为标准化和公平的评估分析提供了便利。

摘要： 2024-10-08，由哈尔滨工业大学（深圳）和清华大学深圳国际研究生院的研究人员联合创建的MIBench，作为首个模型反演攻击和防御的实用基准测试，不仅集成了16种最先进的攻击和防御方法，还提供了9种常用评估协议，为标准化和公平的评估分析提供了便利。MIBench的建立，目的通过全面比较和分析不同阅读全文

posted @ 2024-10-10 11:04 数据猎手小k 阅读(60) 评论(0) 推荐(0)

EA-MD-QD数据集：一个包含欧元区和主要成员国季度和月度宏观经济时间序列数据的大型数据集。

摘要： 2024-10-07，由意大利博洛尼亚大学经济系创建 EA-MD-QD 的大型数据集，数据集涵盖了欧元区及其十个主要成员国的季度和月度宏观经济时间序列数据。EA-MD-QD 的创建为宏观经济研究提供了宝贵资源，使其成为分析欧元区经济结果和政策分析的重要工具。一、研究背景近年来，随着“数据革命”的阅读全文

posted @ 2024-10-10 11:02 数据猎手小k 阅读(39) 评论(0) 推荐(0)

2024年10月8日

OmniCorpus数据集：最大（百亿级别）多模态数据集

摘要： 2024-06-12 ，由上海人工智能实验室、哈尔滨工业大学、南京大学、复旦大学等联合创建OmniCorpus，一个达到百亿级别的图文交错数据集。它不仅规模空前，更以其多元化的数据来源和高质量的数据内容，为多模态大语言模型的研究提供了坚实的数据基础。一、研究背景：随着互联网数据的爆炸性增长，如何阅读全文

posted @ 2024-10-08 16:35 数据猎手小k 阅读(288) 评论(0) 推荐(0)

ProGraph数据集：NeurIPS发布首个面向专业人士的大型语言模型图分析数据集

摘要： 2024-09-29 ，NeurIPS发布首个面向专业人士的大型语言模型图分析数据集GraphPro。这是首个目的测试和提升LLMs在图分析任务上表现的基准。该数据集的创建不仅填补了现有基准测试的空白，还为LLMs在图分析领域的应用提供了新的视角。一、研究背景：图分析在多个领域中都扮演着至关重要阅读全文

posted @ 2024-10-08 15:59 数据猎手小k 阅读(30) 评论(0) 推荐(0)

MHAD数据集：由京东健康、华中科技大学和浙江大学联合收集，最全面包含多角度、多活动和多生理信号的家庭视频生理学数据集

摘要： 2024-08-30，由京东健康、华中科技大学和浙江大学联合收集的第一个真实家庭环境中的多模态数据集MHAD，包含不同拍摄角度和各种家庭场景。它包含了迄今为止最全面的生理信号，是计算机视觉、机器学习和生物医学工程等多个学术研究领域的宝贵资源。一、研究背景：在家庭环境中实现非接触式生理监测，对于健阅读全文

posted @ 2024-10-08 15:55 数据猎手小k 阅读(114) 评论(0) 推荐(0)

2024年10月6日

STAR数据集：首个用于大型卫星图像中场景图生成大规模数据集

摘要： 2024-06-12，在遥感图像领域，由武汉大学等机构联合创建的STAR数据集，标志着场景图生成技术在大规模、高分辨率卫星图像中的新突破。一、研究背景：场景图生成(Scene Graph Generation, SGG)技术在自然图像中已取得显著进展，但在高分辨率的卫星图像(Satellite 阅读全文

posted @ 2024-10-06 20:24 数据猎手小k 阅读(114) 评论(0) 推荐(0)

JUPITER Benchmark Suite：是一套全面的23个基准测试程序，目的支持JUPITER——欧洲首台E级超级计算机的采购

摘要： 2024-08-30，由于利希超级计算中心创建JUPITER Benchmark Suite，这是一个全面的 23 个基准测试程序集合，经过精心记录和设计，目的支持购买欧洲第一台百万兆次级超级计算机 JUPITER。一、研究背景：随着E级超级计算机时代的到来，HPC领域正经历一场革命。在这个时阅读全文

posted @ 2024-10-06 20:21 数据猎手小k 阅读(22) 评论(0) 推荐(0)

2024年9月29日

LawInstruct 数据集:由斯坦福大学、约翰霍普金斯大学和普林斯顿大学联合创建，最大法律大型指令数据集

摘要： 2024-06-19，由斯坦福大学、约翰霍普金斯大学和普林斯顿大学等机构联合创建了LawInstruct数据集，这是目前法律智能领域最大的指令式数据集。该数据集覆盖了17个司法管辖区、24种语言，并包含了1200万条训练样本，旨在推动法律领域内机器学习模型的发展和评估。一、研究背景：随着人工智能阅读全文

posted @ 2024-09-29 16:26 数据猎手小k 阅读(77) 评论(0) 推荐(0)

BeanCounter数据集:一个新颖的、低毒性的、高质量的、大规模的商业领域特定数据集，足以训练数十亿参数的LLMs。

摘要： 2024-09-26，芝加哥大学的研究者们发布了一个名为BeanCounter的大规模商业文本数据集。这个数据集的发布，不仅为语言模型的发展和评估提供了新的资源，还可能推动商业领域文本处理的进一步研究。一、研究背景在商业领域，准确的文本分析对于理解市场趋势、消费者行为、竞争情报等至关重要。然而，阅读全文

posted @ 2024-09-29 16:05 数据猎手小k 阅读(47) 评论(0) 推荐(0)

公告