大语言模型(LLM)安全性测试SecBench平台洞察分析
一、SecBench设计架构
SecBench网络安全大模型评测平台,将重点从能力、语言、领域、安全证书考试四个维度对大模型在网络安全领域的各方面能力进行评估:
SecBench网络安全大模型评测整体设计架构
GPT-4在能力维度、语言维度以及安全领域能力的评估结果
GPT-4在各类安全证书考试中的评估结果(绿色为通过考试)
主要围绕三个维度进行构建:
一是积累行业独有的网络安全评测数据集。评测数据是评测基准建设的基础,也是大模型能力评测最关键的部分。
二是搭建方便快捷的网络安全大模型评测框架。“百模大战”下,大模型的形态各异,有HuggingFace上不断涌现的开源大模型,有类似GPT-4、腾讯混元、文心一言等大模型API服务,以及自研本地部署的大模型。
三是输出全面、清晰的评测结果。网络安全大模型研发的不同阶段其实对评测的需求不同。
二、SecBench评测框架
SecBench网络安全评测框架可以分为数据接入、模型接入、模型评测、结果输出四个部分,通过配置文件配置数据源、评测模型、评估指标,即可快速输出模型评测结果。数据接入:在数据接入上,SecBench支持多类型数据接入,如选择题、判断题、问答题等,同时支持自定义数据接入及评测prompt模板定制化。
SecBench网络安全大模型评测框架
数据接入:在数据接入上,SecBench支持多类型数据接入,如选择题、判断题、问答题等,同时支持自定义数据接入及评测prompt模板定制化。
模型接入:在模型接入上,SecBench同时支持HuggingFace开源模型、大模型API服务、本地部署大模型自由接入,还支持用户自定义模型。
模型评测:在模型评测上,SecBench支持多任务并行,加快评测速度。此外,SecBench已内置多个评估指标以支持常规任务结果评估,也支持自定义评估指标满足特殊需求。
结果输出:在结果输出上,SecBench不仅可以将评测结果进行前端页面展示,还可以输出模型评测中间结果,如配置文件、输入输出、评测结果文件等,支持网络安全大模型研发人员数据分析需求。
SecBench评测数据:
语言维度:覆盖中文、英文两类常见语言的评测。
能力维度:从安全视角,支持大模型对安全知识的知识记忆能力、逻辑推理能力、理解表达能力的评估。
领域维度:支持大模型在不同安全领域能力的评测,包括数据安全、应用安全、端点与主机安全、网络与基础架构安全、身份与访问控制、基础软硬件与技术、安全管理等。
证书考试:SecBench还积累了各类安全证书模拟试题,可支持大模型安全证书等级考试评估。
三、模型安全性测评基准:
SecBecnch已初步建立起围绕网络安全垂类领域的评测能力,以更好地支持网络安全大模型的研发及落地应用。此外为评估大模型在Prompt安全方面的表现,腾讯朱雀实验室已联合清华大学深圳国际研究生院,发布了《大语言模型(LLM)安全性测评基准 v1.0.pdf》。
相关材料源于:网络安全大模型评测平台SecBench和《大语言模型(LLM)安全性测评基准 v1.0.pdf》