逆文档频率的工作原理
逆文档频率的工作原理
Photo by 马里奥拉·格罗贝尔斯卡 on 不飞溅
- 在 BERT 中查找逆文档频率信息( arXiv )
作者 : 崔载克 , 尤娜·郑 , Sungjun Lim , 李元钟
抽象的 : 几十年来,BM25 及其变体一直是主要的文档检索方法,它们的两个基本特征是词频 (TF) 和逆文档频率 (IDF)。然而,传统方法正在迅速被可以利用语义特征的神经排序模型 (NRM) 所取代。在这项工作中,我们考虑基于 BERT 的 NRM,并研究 NRM 中是否存在 IDF 信息。这个简单的问题很有趣,因为 IDF 对于传统的词法匹配来说是不可或缺的,但是像 IDF 这样的全局特征并没有被包括 BERT 在内的神经语言模型明确学习。我们采用线性探测作为主要分析工具,因为典型的基于 BERT 的 NRM 使用基于线性或内积的分数聚合器。我们分析了输入嵌入、所有 BERT 层的表示以及 CLS 的自注意力权重。通过使用三个基于 BERT 的模型研究 MS-MARCO 数据集,我们表明它们都包含强烈依赖于 IDF 的信息
2. 使用逆文档频率的深度神经网络的鲁棒黑盒水印( arXiv )
作者 : 穆罕默德·迈赫迪·亚多拉希 , 法扎内·舒勒 , 萨贾德·达卡哈 , 阿里·戈尔巴尼
抽象的 : 深度学习技术是任何人工智能 (AI) 服务中最重要的元素之一。最近,这些机器学习 (ML) 方法,如深度神经网络 (DNN),在实现各种困境的人类水平能力方面取得了非凡的成就,如自然处理语言 (NLP)、语音识别和图像处理等。就计算能力和足够标记数据的存在而言,训练这些模型的成本很高。因此,基于机器学习的模型(例如 DNN)为其所有者建立了真正的商业价值和知识产权 (IP)。因此,需要保护经过训练的模型免受任何对手的攻击,例如非法再分配、复制和派生。水印可以被认为是保护 DNN 模型的有效技术。然而,到目前为止,大多数水印算法都侧重于通过向图像添加噪声来对 DNN 进行水印。为此,我们提出了一个为文本域设计的 DNN 模型加水印的框架。水印生成方案通过结合特定单词的词频 (TF) 和逆文档频率 (IDF) 来提供安全的水印方法。所提出的嵌入过程发生在模型的训练时间内,通过将带水印的文档发送到训练模型,使水印验证阶段变得简单。实验结果表明,水印模型与原始模型具有相同的精度。所提出的框架在不影响性能的情况下准确地验证了所有代理模型的所有权。所提出的算法对参数修剪和蛮力攻击等众所周知的攻击具有鲁棒性
3. TIDF-DLPM: Term and Inverse Document Frequency based Data Leakage Prevention Model( arXiv )
作者 : 伊修古普塔更多 , 斯洛尼米塔尔 , 安吉提瓦里 , 普里亚·阿加瓦尔 , 阿舒托什·库马尔·辛格
抽象的 : 数据的机密性受到威胁,因为它被归类为可能泄露给未经授权方的虚假类别
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」