【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习（BPTT）的？

重要性：★★

本问题主要考察面试者有有以下几点：

① 理解RNN循环的概念，认识到截断的 BPTT的必要性

② 理解深度学习框架在处理反向传播时需要在保存各个时刻的中间（前向计算）数据，会消耗大量的显存

这是我常用的一个面试题。看似简单的基础题，但在面试中能准确回答的不足10% ，常识题的错误反而会让人印象深刻。

NLP Github 项目：

NLP 项目实践：fasterai/nlp-project-practice

介绍：该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验
AI 藏经阁：https://gitee.com/fasterai/ai-e-book

介绍：该仓库主要分享了数百本 AI 领域电子书
AI 算法面经：fasterai/nlp-interview-handbook#面经

介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
NLP 剑指Offer：https://gitee.com/fasterai/nlp-interview-handbook

介绍：该仓库汇总了 NLP 算法工程师高频面题

RNN通过反向传播进行参数学习，将循环展开后的RNN层的误差反向传播法：

RNN的误差反向传播法是“按时间顺序展开的神经网络的误差反向传播法”，所以称为 Backpropagation Through Time（基于时间的反向传播），简称 BPTT。

RNN反向传播存在的问题：
BPTT随着时序数据的时间跨度的增大，BPTT 消耗的计算资源和内存资源（求梯度时必须在内存中保存各个时刻的中间数据）也会成比例地增大。另外，反向传播的梯度也会变得不稳定。

解决方案：
为解决BPTT在处理长时序数据时存在的问题，通常的做法是将网络连接截成适当的长度。然后对截出来的小型网络执行误差反向传播法，这个方法称为 Truncated BPTT（截断的 BPTT）。

在 Truncated BPTT 中，只是网络的反向传播的连接被截断，正向传播的连接依然被维持。被截断的网络称为“块”。

使用展开的视角观察RNN的学习过程：

MLP 大模型高频面题汇总

NLP基础篇

BERT 模型面

LLMs 微调面

本文由mdnice多平台发布

posted @ 2024-11-23 19:26 青松^_^ 阅读(43) 评论(0) 收藏举报

刷新页面返回顶部

fasterai

【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习（BPTT）的？

【淘汰9成NLP面试者的高频面题】RNN是如何基于时间进行参数学习（BPTT）的？

MLP 大模型高频面题汇总

NLP基础篇

【NLP 面试宝典之模型分类】必须要会的高频面题

【NLP 面试宝典之神经网络】必须要会的高频面题

【NLP 面试宝典之主动学习】必须要会的高频面题

【NLP 面试宝典之超参数优化】必须要会的高频面题

【NLP 面试宝典之正则化】必须要会的高频面题

【NLP 面试宝典之过拟合】必须要会的高频面题

【NLP 面试宝典之 Dropout】必须要会的高频面题

【NLP 面试宝典之 EarlyStopping】必须要会的高频面题

【NLP 面试宝典之标签平滑】必须要会的高频面题

【NLP 面试宝典之 Warm up 】必须要会的高频面题

【NLP 面试宝典之置信学习】必须要会的高频面题

【NLP 面试宝典之伪标签】必须要会的高频面题

【NLP 面试宝典之类别不均衡问题】必须要会的高频面题

【NLP 面试宝典之交叉验证】必须要会的高频面题

【NLP 面试宝典之词嵌入】必须要会的高频面题

【NLP 面试宝典之 One-Hot】必须要会的高频面题

......

BERT 模型面

【NLP 面试宝典之 BERT模型】必须要会的高频面题

【NLP 面试宝典之 BERT变体】必须要会的高频面题

【NLP 面试宝典之 BERT应用】必须要会的高频面题

......

LLMs 微调面

【NLP 面试宝典之 LoRA微调】必须要会的高频面题

【NLP 面试宝典之 Prompt】必须要会的高频面题

【NLP 面试宝典之提示学习微调】必须要会的高频面题

【NLP 面试宝典之 PEFT微调】必须要会的高频面题

【NLP 面试宝典之 Chain-of-Thought微调】必须要会的高频面题

......

公告