Syw_文 - 博客园

2025年11月21日

【模型安全】过度拒绝基准测试Over-Refusal Benchmark（FQ）

摘要：关键词：过度拒绝、LLM、安全性、虚假拒绝大型语言模型（LLM）需要严格的安全性对齐以防止恶意输出。虽然大量研究聚焦于减少有害内容生成，但增强安全性往往伴随着过度拒绝的副作用，即大型语言模型可能拒绝无害的提示，从而变得帮助性降低。尽管过度拒绝的问题已被实证观察到，但由于难以设计能引发 LLM 过阅读全文

posted @ 2025-11-21 18:05 Syw_文阅读(18) 评论(0) 推荐(0)

2025年11月6日

【文本模型】长文本评测标准

摘要：面向大语言模型（LLM）的文本生成质量评估框架作为文本大模型的评测工程师，我深知长文本生成（通常指500词以上或连续多段落的输出）是当前大模型能力的关键挑战点。与短文本不同，长文本更易暴露模型的上下文保持能力、逻辑连贯性、错误累积风险等深层问题。错误在长文本中会被放大，导致用户体验断崖式下降（例如阅读全文

posted @ 2025-11-06 14:22 Syw_文阅读(106) 评论(0) 推荐(0)

2025年2月18日

【模型安全】大模型视频安全能力评估策略构建

摘要：视频安全能力要求按照《生成式人工智能服务安全基本要求.pdf》中5大类31小类构建题集 1、违反社会主义价值观 a)煽动颠覆国家政权、推翻社会主义制度） b)危害国家安全和利益、损害国家形象 c)传播虚假有害信息 d)其他法律、行政法规禁止的内容 e)煽动分裂国家、破坏国家统一和社会稳定 f)宣扬阅读全文

posted @ 2025-02-18 11:44 Syw_文阅读(128) 评论(0) 推荐(0)

2024年12月18日

OpenAI提示词工程详解

摘要：六大策略助你获得更优结果 1. 清晰明确的指令请记住，模型无法直接读取你的想法。如果输出结果太长，请要求简短回复；如果输出结果过于简单，请要求专家级别的写作；如果你不喜欢当前的格式，请提供你想要的格式示例。模型需要猜测的东西越少，就越有可能生成你期望的结果。策略：在你的查询中提供更多细节，以便阅读全文

posted @ 2024-12-18 11:01 Syw_文阅读(421) 评论(1) 推荐(0)

2024年11月18日

【大模型】模型安全

摘要：核心内容来自《大模型安全研究报告（2024年）.pdf》更多的安全内容见内部“语雀-大模型”-笔记真实性：训练数据能真实反映物理世界客观规律和人类社会实际运转情况的性质。多样性：训练数据应覆盖尽可能多的样本，以确保大模型能对不同情况进行泛化的性质。准确性：针对所规定的各项安全要求 , 大模型阅读全文

posted @ 2024-11-18 12:03 Syw_文阅读(124) 评论(0) 推荐(0)

2024年11月14日

【大模型】行业报告(免费）查询与下载地址总结

摘要：数字菁英地址：https://www.digitalelite.cn/ 阅读全文

posted @ 2024-11-14 15:19 Syw_文阅读(40) 评论(0) 推荐(0)

【大模型】大模型评价标准收集

摘要：一、大模型综合评价标准来源：https://mp.weixin.qq.com/s/MbeC0rYpE4COB52Cb417FA 大模型综合评价标准，是用于全面评估语言模型性能和实际应用能力的多维度指标体系。包括语言生成质量、任务性能、模型效率等。这些标准可以系统地衡量模型在不同方面的表现，确保其在阅读全文

posted @ 2024-11-14 15:06 Syw_文阅读(665) 评论(0) 推荐(0)

2024年11月13日

【大模型】评测指标解析（准确率/精确率/召回率/F1分数/rouge/Perplexity/BLEU）

摘要：准确率（Accuracy）准确率（Accuracy）是用来评估分类模型性能的一个重要指标。它表示模型正确预测的样本数占总样本数的比例。准确率的计算公式为： Accuracy=(TP+TN)/(TP+TN+FP+FN) 其中： TP（True Positives）：真正例，模型正确预测为正类的样本阅读全文

posted @ 2024-11-13 16:44 Syw_文阅读(3638) 评论(0) 推荐(0)

【大模型评测】国内外主流评测基准分析(图）

摘要：附件阅读全文

posted @ 2024-11-13 15:50 Syw_文阅读(58) 评论(0) 推荐(0)

2024年7月29日

【大模型评测】AlignBench: 多维度中文对齐评测基准

摘要：网站（要FQ才可查看）网站：https://llmbench.ai/agent github地址：https://github.com/THUDM/AlignBench/blame/master/data/data_v1.1_release.jsonl 主要评测内容评测数据样例: 评测基准背景阅读全文

posted @ 2024-07-29 10:25 Syw_文阅读(265) 评论(0) 推荐(0)

Syw

公告