摘要:
2024-10-04,由浙江大学和罗格斯大学研究人员的共同努力下,诞生了Agent Security Bench (ASB),这是首个全面评估大型语言模型(LLM)驱动的智能体在面对各种攻击和防御策略时安全性的综合基准框架。ASB的出现,不仅填补了现有文献在综合评估LLM基础智能体安全性的空白,更为 阅读全文
摘要:
2024-10-04,为了提升大型语言模型在不同文化背景下的实用性,华盛顿大学、艾伦人工智能研究所等机构联合创建了CulturalBench。这个数据集包含1,227个由人类编写和验证的问题,覆盖了包括被边缘化地区在内的45个全球区域。CulturalBench的推出,目的通过一个稳健、多样化且具有 阅读全文
摘要:
2024-07-15,为了推进自动驾驶卡车技术的发展并确保其在公共道路上的安全性,由慕尼黑工业大学和MAN Truck & Bus SE联合创建了MAN TruckScenes数据集。数据集首次为研究社区提供了一个包含丰富环境条件下的卡车特定挑战,如拖车遮挡、新型传感器视角和终点站环境的多模态数据集 阅读全文
摘要:
2024-10-05,南加州大学和伊利诺伊大学香槟分校的研究人员揭示了现有成员推断攻击Membership inference attacks (MIAs)评估中的关键缺陷,并引入了CopyMark,这是一个更现实的MIAs基准,它支持预训练扩散模型、无偏数据集和公平评估流程。 一、研究背景: 近年 阅读全文
摘要:
2024-10-04, 由华东师范大学、哈索·普拉特纳研究所和上海交通大学的研究团队联合创建了CliMedBench。这是一个包含14个专家指导的核心临床场景的综合基准,旨在全面评估LLMs的医疗能力。数据集由顶级三级医院的真实医疗报告和真实的考试练习中提取出33,735个问题构成,其可靠性已经得到 阅读全文