随笔分类 - MLM大模型
摘要:视频安全能力要求 按照《生成式人工智能服务安全基本要求.pdf》中5大类31小类构建题集 1、违反社会主义价值观 a)煽动颠覆国家政权、推翻社会主义制度) b)危害国家安全和利益、损害国家形象 c)传播虚假有害信息 d)其他法律、行政法规禁止的内容 e)煽动分裂国家、破坏国家统一和社会稳定 f)宣扬
阅读全文
摘要:六大策略助你获得更优结果 1. 清晰明确的指令 请记住,模型无法直接读取你的想法。如果输出结果太长,请要求简短回复;如果输出结果过于简单,请要求专家级别的写作;如果你不喜欢当前的格式,请提供你想要的格式示例。模型需要猜测的东西越少,就越有可能生成你期望的结果。 策略: 在你的查询中提供更多细节,以便
阅读全文
摘要:核心内容来自《大模型安全研究报告(2024年).pdf》 更多的安全内容见内部“语雀-大模型”-笔记 真实性:训练数据能真实反映物理世界客观规律和人类社会实际运转情况的性质。 多样性:训练数据应覆盖尽可能多的样本,以确保大模型能对不同情况进行泛化的性质。 准确性:针对所规定的各项安全要求 , 大模型
阅读全文
摘要:数字菁英 地址:https://www.digitalelite.cn/
阅读全文
摘要:一、大模型综合评价标准 来源:https://mp.weixin.qq.com/s/MbeC0rYpE4COB52Cb417FA 大模型综合评价标准,是用于全面评估语言模型性能和实际应用能力的多维度指标体系。包括语言生成质量、任务性能、模型效率等。这些标准可以系统地衡量模型在不同方面的表现,确保其在
阅读全文
摘要:准确率(Accuracy) 准确率(Accuracy)是用来评估分类模型性能的一个重要指标。它表示模型正确预测的样本数占总样本数的比例。 准确率的计算公式为: Accuracy=(TP+TN)/(TP+TN+FP+FN) 其中: TP(True Positives):真正例,模型正确预测为正类的样本
阅读全文
摘要:网站(要FQ才可查看) 网站:https://llmbench.ai/agent github地址:https://github.com/THUDM/AlignBench/blame/master/data/data_v1.1_release.jsonl 主要评测内容 评测数据样例: 评测基准背景
阅读全文
摘要:算法质量保障要点解读 算法质量保障流程 数据标注事项 ● 明确数据标注目的和需求:如明确是训练模型、测试模型、评估模型等 ● 制定标注计划:范围、进度、人员、工具等 ● 选择合适的标注人员:专业知识、背景、能力等 ● 提供标注培训/指导:标注目的/需求的介绍、标注标准的讲解、标注方法的演示、练习 ●
阅读全文
摘要:大模型事实核查测试介绍 大模型的事实核查维度主要包括以下几个方面: 事实理解:大模型需要能够理解事实陈述中的事实信息,包括事实的主体、客体、属性、关系等。 知识推理:大模型需要能够根据事实信息进行推理,从而得出新的事实信息。 语言生成:大模型需要能够生成准确的事实陈述,以回答事实核查问题。 具体来说
阅读全文
摘要:● 评测工具:用于评估模型的整体能力 ● 评测基准:用于评估模型在特定任务方面的能力 评测集名称 核心维度 测试模型的描述 评测类型 MMLU 多模态语言理解 理解文本、图像和音频等多种模态数据之间的关系方面的能力 评测工具 AGIEVAL 通用人工智能 自然语言理解、机器翻译、视觉识别等多种不同任
阅读全文
摘要:语言大模型(Large Language Models, LLMs)是近年来自然语言处理领域的重要发展之一。其主要特点是: 海量参数:LLMs包含了上十亿个参数,特别是GPT-3包含了1759亿个参数。这些大规模的参数使其可以学习非常复杂的模式和表征。 巨量数据集:LLMs通过海量数据进行预训练,例
阅读全文
摘要:概念:特征工程是机器学习中的一项重要技术,它通过对数据进行预处理、转换和提取,使得机器学习算法能够更好地利用数据特征进行模型训练和预测 特征处理和选择是特征工程的核心环节,其主要目的是从原始数据中提取出与特定任务相关的特征,并去除无关或冗余的特征,从而提高模型的性能和准确性。通过这些特征处理和选择的
阅读全文
摘要:数据标注是将原始数据进⾏加⼯处理,⽐如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。 国内数据标注⼚商,⼴义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等⼯作,为下游客⼾提供通⽤数据集、定制化服务、数据闭环⼯具链等。这也是本次AIGC数据标注全景报告的研究
阅读全文
摘要:建立大模型的数据质量保障机制是确保模型性能和可靠性的关键一步。以下是建立此类机制的一般步骤: 1. **数据采集与收集**: - 确定数据来源:明确定义从哪里获取数据,例如数据库、外部API、传感器等。 - 数据采集策略:定义数据采集频率、数据范围、采集设备等。 - 数据收集:设计和实施数据收集过程
阅读全文
摘要:对于营销文案的内容打分,可以从以下维度给出打分的理由: 1. **引人关注**:文案的能力吸引注意力,使用引人注目的标题、亮点和视觉元素。 2. **信息传达**:文案是否清晰地传达了产品或服务的关键信息,如品牌、类型、特点等。 3. **情感营销**:文案是否能够触发情感共鸣,如幽默、亲和力、怀旧
阅读全文