迁移学习、元学习、强化学习、联邦学习、对比学习等

1、迁移学习（Transfer Learning）

直观理解：站在巨人的肩膀上学习。根据已有经验来解决相似任务，类似于你用骑自行车的经验来学习骑摩托车。
专业理解：将训练好的内容应用到新的任务上，即将源域（被迁移对象）应用到目标域（被赋予经验的领域）。
迁移学习不是具体的模型，更类似于解题思路。
当神经网络很简单，训练一个小的神经网络不需要特别多的时间，完全可以从头开始训练。如果迁移之前的数据和迁移后的数据差别很大，这时迁移来的模型起不到很大的作用，还可能干扰后续的决策。
应用场景：目标领域数据太少、节约训练时间、实现个性化应用。
实际擅长应用例举：语料匮乏的小语种之间的翻译、缺乏标注的医疗影像数据识别、面向不同领域快速部署对话系统。
NLP领域中的应用：Transformer、Bert之类的预训练语言模型，微调后可以完成不同的任务。

2、元学习（Meta Learning)

与传统的监督学习不一样，传统的监督学习要求模型来识别训练数据并且泛化到测试数据。
训练目标：Learn to Learn，自己学会学习。例：你不认识恐龙，但是你有恐龙的卡片，这样看见一张新的图片时，你知道新的图片上的动物与卡片上的动物长得很像，是同类的。
靠一张卡片来学习识别叫做：one-shot learning。

3、小样本学习（Few-Shot Learning）

Few-Shot Learning是一种Meta Learning。
用很少的数据来做分类或回归。例如：模型学会了区分事物的异同，例如：虽然数据集中没有狗的照片，模型不会识别狗，但模型也能判断两张狗的图片上的事物是同类的。
数据集：Support Set。Support Set与训练集的区别：训练集的规模很大，每一类下面有很多图片，可以用来训练一个深度神经网络。相比这下，Support Set数据集比较小，每一类下面只有一张或几张图片，不足以训练一个大的神经网络。Support Set只能在做预测的时候提供一些额外的信息。
用足够大的训练集来训练一个大模型，比如深度神经网络，训练的目的不是为了让模型来识别训练集里的事物，而是让模型学会区分事物的异同。
传统监督学习 VS Few-Shot Learning：传统监督学习是先用一个训练集来学习一个模型，模型学习好之后可以用来做预测，给一张没有出现在训练集中的图片，模型没有见过这张图片，但是测试图片的类别包含在训练集中，模型能很容易就判断出图片的类别。而Few-Shot Learning不仅没有见过这张图片，训练集中也没有该类别的图片。Few-Shot Learning的任务比传统监督学习更难。
k-way n-shot Support Set：Support Set中有k个类别，每个类别；里有n个样本。

4、强化学习（Reinforcement Learning）

不是某种特定的模型和算法，指的是训练方法。
举例：下棋：每当落下一子，对方都会再落下一子，这时主体就要认识新的局面也就是新的环境，分析判断后再行动，主体的目标是在尽可能多的棋局中获胜。
由于主体的每个行为都会改变环境，这决定了强化学习无法使用数据集训练，只能通过真是环境或模拟器产生的数据来学习，由于计算量大，效率低，除AlphaGo和游戏AI外落地应用并不多。
实际应用：推荐系统每次都会影响人们的购买，系统需要根据新的市场数据给出新的推荐；股票市场中每个人每时每刻买入卖出都会影响股价，交易系统需要理解新的环境后再行动。
强化学习算法可以分为两类：基于模型的（试图用模型模拟真实环境）。无模型的（不模拟环境，只根据反馈数据构建关于回报的模型）。
在强化学习中，做出决策的一方称为Agent（主体），主体每做出一个动作，环境都会给予反馈，主体会在评估反馈之后决定下一个动作。一切动作的基础都是回报，目标是长期，也就是未来的回报尽可能的大。

5、深度强化学习（Deep Reinforcement Learning DRL)

深度强化学习：使用神经网络构建强化学习主体的方法。
使用深度强化学习原因：强化学习面对的情景多种多样，环境、行为、回报很难穷尽，只要有输入就一定有输出，神经网络面对没有见过的情况也能做出选择。
Value-Based Method，将关注点放在回报上：
- DQN（Deep Q-Learning Network）：用数值Q表示特定状态下采取某行动的收益，将计算Q的工作交给神经网络；
- DDQN（Double Deep Q-Learning Network）增加一个对Q值评估相对谨慎的网络，平衡两者之间的看法，防止主体过于激进。
- NoiseNet：为了提高探索能力，适当在网络中增加噪音，增加主体的随机性。
- RainBow:DQN+DDQN+NoiseNet.
Policy-Based Method，将关注点放在动作的选择上：
- Policy Gradient，策略梯度：如果一个动作能使最终回报变大，就增加这个动作出现的概率，反之就减少。
Combination
- Actor-Critic：如果我们让选择动作的网络担任主体Actor，关注回报的网络担任老师Critic，为主体的表现打分提供指导。
- A3C（Asynchronous Advantage Actor-Critic）：使用多个Actor-Critic网络同时探索环境，并将采集到的数据交由主网络更新参数。

6、联邦学习

二人同心，其利断金。团结就是力量，机器学习同样如此，数据越多，训练出的模型效果越好，所以将大家的数据放在一起使用，每个人都能得到更好的模型。
现实世界中，数据是属于用户的，既不能不作申请的使用它们，还要保护数据的私密性。联邦学习：安全高效的实现数据合作。
横向联邦学习（Horizontal Federated Learning）或特征对对齐的联邦学习（Feature-Aligned Federated Learning）：参与者们业务相似，数据的特征重叠多，样本重叠少（比如不同地区的两家银行），就可以通过上传参数，在服务器中聚合更新模型，再将最新的参数下放完成模型效果的提升。
纵向联邦学习（Vertical Federated Learning）或样本对对齐的联邦学习（Sample-Aligned Federated Learning）：参与者的数据中样本重叠多，特征重叠少（比如同一地区的银行和电商），就需要先将样本对齐，由于不能直接比对，我们需要加密算法的帮助，让参与者在不暴露不重叠样本的情况下，找出相同的样本后联合它们的特征进行学习。
联邦迁移学习：如果样本和特征重合的都不多，希望利用数据提升模型能力，就需要将参与者的模型和数据迁移到同一空间中运算。
目标：解决数据的协作和隐私问题。

7、对比学习

PS：知识的搬运工！！！

posted @ 2022-03-18 20:37 NLP的小Y 阅读(4301) 评论(2) 编辑收藏举报

刷新页面返回顶部