摘要: 1、文章贡献 (1)提出了一种具有自适应优化的高效参数提示微调方法 FedPepTAO (2)提出了一种评分方法来分析每一层与LLM输出结果的相关性,进而能够得对层进行筛选,从而减少通信成本 (2)在服务端和客户端提供了独创的自适应优化方法来缓解客户端漂移问题 (3)在准确性和效率上比其他的传统方法 阅读全文
posted @ 2024-06-22 23:27 sftsgly 阅读(25) 评论(0) 推荐(0) 编辑
摘要: (1)方法分类 【1】前缀微调 在模型输入前构造一段和任务相关的前缀,训练时只更新前缀部分参数,其余参数固定,常用于自然语言生成任务 图一: 前缀微调 【2】P微调(P-Tuning) 和前缀微调类似,但只在嵌入输入层添加token,且插入位置可选,不一定为前缀,常用于自然语言理解任务 图二 :P- 阅读全文
posted @ 2024-06-22 23:10 sftsgly 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 1、LLM大模型遇到的问题 (1)过度依赖公共数据 目前的LLM模型训练依赖于公共数据,而公共领域的数据存在局限性,无法满足LLM 的训练要求 【1】优质的公共数据集将无法满足日益增长的LLM 模型训练需求 【2】过度依赖于公共数据集可能会导致模型训练结果同质化 (2)隐私数据的困境 私人领域的数据 阅读全文
posted @ 2024-06-22 17:53 sftsgly 阅读(46) 评论(0) 推荐(0) 编辑
摘要: 1、主动攻击 主动攻击指故意操纵训练数据或训练模型以实现恶意攻击目标。其攻击方式可能涉及更改模型以防止全局模型收敛;或让特定样本错误分类,从而减少对全局模型整体性能的影响 。 1.1中毒攻击类型 (1)基本概念 数据投毒是指,攻击者将少量精心设计的中毒数据样本添加到模型的训练数据集中,利用训练或者微 阅读全文
posted @ 2024-06-22 17:33 sftsgly 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 1、数据源 数据库数据不能直接作为数据仓库数据源的原因: (1)数据库要求行式存储,数据仓库要求列式存储,直接对接会导致查询速度过慢,数据仓库性能有影响 (2)数据库中存储的数据不是海量数据,数据仓库要求数据是海量数据,否则分析效果不佳 (3)数据库不是为了数据仓库而服务的,若直接对接数据仓库会导致 阅读全文
posted @ 2024-05-04 19:03 sftsgly 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 1、数据仓库的作用 (1)采集存储 (2)计算分析 2、数据来源 (1)业务数据 (2)用户行为 (3)爬虫数据 3、流程 (1)DataX 负责全量导入,Flink-CDC 负责增量导入 (2)DWD 存储事实表(用户具体做了什么事),DIM 存储维度表(用于描述事实表) (3)DWS 负责预聚合 阅读全文
posted @ 2024-01-01 14:28 sftsgly 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 1、HBase 定义 以 hdfs 为数据存储的,一种分布式,可扩展的 NoSQL 数据库 2、HBase 数据模型 HBase 数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射 map 指代非关系型数据库的 k-v 结构。 映射:由行键、列键和时间戳索引,每个值都是一个未解释的字节数组 阅读全文
posted @ 2023-10-23 20:15 sftsgly 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 1、Flink 特点 (1)批流统一 同一套代码,可以跑流也可以跑批 同一个 SQL,可以跑流也可以跑批 (2)性能卓越 高吞吐 低延时 (3)规模计算 支持水平扩展架构 支持超大状态与增量检查点机制 (4)生态兼容 支持与 yarn 集成 支持与 kubernetes 集成 支持单机模式运行 (5 阅读全文
posted @ 2023-10-18 10:37 sftsgly 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 1、Flume 定义 高可用、高可靠、分布式海量日志采集、聚合和传输的系统。流式架构,灵活简单 实时读取服务器本地磁盘的数据,将数据写入到 HDFS 中 Kafka 是一个分布式消息中间件,自带存储,提供 push 和 pull 存取数据功能。它专注于高效地传输大规模数据流, 并提供了高度可扩展的消 阅读全文
posted @ 2023-09-22 11:54 sftsgly 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 1、卡夫卡的定义 (1)传统 卡夫卡是一个分布式的基于发布订阅模式的消息队列,主要应用于大数据实时处理 【发布 / 订阅】 消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息 (2)最新 卡夫卡是一个开源的分布式事件流平台,被千家公司用于高性能数据 阅读全文
posted @ 2023-09-22 01:20 sftsgly 阅读(144) 评论(0) 推荐(0) 编辑