迁移学习、元学习、强化学习、联邦学习、对比学习等
1、迁移学习(Transfer Learning)
- 直观理解:站在巨人的肩膀上学习。根据已有经验来解决相似任务,类似于你用骑自行车的经验来学习骑摩托车。
- 专业理解:将训练好的内容应用到新的任务上,即将源域(被迁移对象)应用到目标域(被赋予经验的领域)。
- 迁移学习不是具体的模型,更类似于解题思路。
- 当神经网络很简单,训练一个小的神经网络不需要特别多的时间,完全可以从头开始训练。如果迁移之前的数据和迁移后的数据差别很大,这时迁移来的模型起不到很大的作用,还可能干扰后续的决策。
- 应用场景:目标领域数据太少、节约训练时间、实现个性化应用。
- 实际擅长应用例举:语料匮乏的小语种之间的翻译、缺乏标注的医疗影像数据识别、面向不同领域快速部署对话系统。
- NLP领域中的应用:Transformer、Bert之类的预训练语言模型,微调后可以完成不同的任务。
2、元学习(Meta Learning)
- 与传统的监督学习不一样,传统的监督学习要求模型来识别训练数据并且泛化到测试数据。
- 训练目标:Learn to Learn,自己学会学习。例:你不认识恐龙,但是你有恐龙的卡片,这样看见一张新的图片时,你知道新的图片上的动物与卡片上的动物长得很像,是同类的。
- 靠一张卡片来学习识别叫做:one-shot learning。
3、小样本学习(Few-Shot Learning)
- Few-Shot Learning是一种Meta Learning。
- 用很少的数据来做分类或回归。例如:模型学会了区分事物的异同,例如:虽然数据集中没有狗的照片,模型不会识别狗,但模型也能判断两张狗的图片上的事物是同类的。
- 数据集:Support Set。Support Set与训练集的区别:训练集的规模很大,每一类下面有很多图片,可以用来训练一个深度神经网络。相比这下,Support Set数据集比较小,每一类下面只有一张或几张图片,不足以训练一个大的神经网络。Support Set只能在做预测的时候提供一些额外的信息。
- 用足够大的训练集来训练一个大模型,比如深度神经网络,训练的目的不是为了让模型来识别训练集里的事物,而是让模型学会区分事物的异同。
- 传统监督学习 VS Few-Shot Learning:传统监督学习是先用一个训练集来学习一个模型,模型学习好之后可以用来做预测,给一张没有出现在训练集中的图片,模型没有见过这张图片,但是测试图片的类别包含在训练集中,模型能很容易就判断出图片的类别。而Few-Shot Learning不仅没有见过这张图片,训练集中也没有该类别的图片。Few-Shot Learning的任务比传统监督学习更难。
- k-way n-shot Support Set:Support Set中有k个类别,每个类别;里有n个样本。
4、强化学习(Reinforcement Learning)
- 不是某种特定的模型和算法,指的是训练方法。
- 举例:下棋:每当落下一子,对方都会再落下一子,这时主体就要认识新的局面也就是新的环境,分析判断后再行动,主体的目标是在尽可能多的棋局中获胜。
- 由于主体的每个行为都会改变环境,这决定了强化学习无法使用数据集训练,只能通过真是环境或模拟器产生的数据来学习,由于计算量大,效率低,除AlphaGo和游戏AI外落地应用并不多。
- 实际应用:推荐系统每次都会影响人们的购买,系统需要根据新的市场数据给出新的推荐;股票市场中每个人每时每刻买入卖出都会影响股价,交易系统需要理解新的环境后再行动。
- 强化学习算法可以分为两类:基于模型的(试图用模型模拟真实环境)。无模型的(不模拟环境,只根据反馈数据构建关于回报的模型)。
- 在强化学习中,做出决策的一方称为Agent(主体),主体每做出一个动作,环境都会给予反馈,主体会在评估反馈之后决定下一个动作。一切动作的基础都是回报,目标是长期,也就是未来的回报尽可能的大。
5、深度强化学习(Deep Reinforcement Learning DRL)
- 深度强化学习:使用神经网络构建强化学习主体的方法。
- 使用深度强化学习原因:强化学习面对的情景多种多样,环境、行为、回报很难穷尽,只要有输入就一定有输出,神经网络面对没有见过的情况也能做出选择。
- Value-Based Method,将关注点放在回报上:
- DQN(Deep Q-Learning Network):用数值Q表示特定状态下采取某行动的收益,将计算Q的工作交给神经网络;
- DDQN(Double Deep Q-Learning Network)增加一个对Q值评估相对谨慎的网络,平衡两者之间的看法,防止主体过于激进。
- NoiseNet:为了提高探索能力,适当在网络中增加噪音,增加主体的随机性。
- RainBow:DQN+DDQN+NoiseNet.
- Policy-Based Method,将关注点放在动作的选择上:
- Policy Gradient,策略梯度:如果一个动作能使最终回报变大,就增加这个动作出现的概率,反之就减少。
- Combination
- Actor-Critic:如果我们让选择动作的网络担任主体Actor,关注回报的网络担任老师Critic,为主体的表现打分提供指导。
- A3C(Asynchronous Advantage Actor-Critic):使用多个Actor-Critic网络同时探索环境,并将采集到的数据交由主网络更新参数。
6、联邦学习
- 二人同心,其利断金。团结就是力量,机器学习同样如此,数据越多,训练出的模型效果越好,所以将大家的数据放在一起使用,每个人都能得到更好的模型。
- 现实世界中,数据是属于用户的,既不能不作申请的使用它们,还要保护数据的私密性。联邦学习:安全高效的实现数据合作。
- 横向联邦学习(Horizontal Federated Learning)或特征对对齐的联邦学习(Feature-Aligned Federated Learning):参与者们业务相似,数据的特征重叠多,样本重叠少(比如不同地区的两家银行),就可以通过上传参数,在服务器中聚合更新模型,再将最新的参数下放完成模型效果的提升。
- 纵向联邦学习(Vertical Federated Learning)或样本对对齐的联邦学习(Sample-Aligned Federated Learning):参与者的数据中样本重叠多,特征重叠少(比如同一地区的银行和电商),就需要先将样本对齐,由于不能直接比对,我们需要加密算法的帮助,让参与者在不暴露不重叠样本的情况下,找出相同的样本后联合它们的特征进行学习。
- 联邦迁移学习:如果样本和特征重合的都不多,希望利用数据提升模型能力,就需要将参与者的模型和数据迁移到同一空间中运算。
- 目标:解决数据的协作和隐私问题。
7、对比学习
- 通过对比来了解事物的本质,就是利用数据间的相关性去学习事物本质的一种方法。
- 对比学习是一种自监督学习方法,用于在没有标签的情况下,通过让模型学习哪些数据点相似或不同来学习数据集的一般特征。
- 举例:有两只猫和一只狗,即使没有人告诉你它们是“猫”和“狗”,你仍可能会意识到,与狗相比,这两只猫看起来很相似。
PS:知识的搬运工!!!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!