强化学习科研入门

强化学习科研入门路线

先从深度学习开始

想学好强化学习,必要的深度学习基础是不可或缺的,好比盖楼打地基,如果说机器学习是地基,深度学习是钢筋混凝土等支柱,那么,强化学习无疑就是在这些基础上的上层建筑,成熟的强化学习模型,可以在瞬息万变的环境中自主地做出合理的决策,像人一样思考,而非只是仅仅通过一对一的 input和output,端到端地把题目做出来。不必急于求成,路都是一步一个脚印走好的,一个伟大的万能的决策者,不也是从简单的做题开始的吗,机器学习基础固然重要,时间有限,我们不妨从深度学习开始。

人工智能入门(速速过一遍)

笔者的建议是:这些库懂得用就行(好比你知道哆啦A梦有哪些道具,你找他取就是),不用像考试一样背下来,不现实,要用的时候忘记了懂得问gpt,然后可以自己用pytorch搭建那些基础的网络,cnn或rnn等加深对代码和网络的理解

  1. Python编程
  2. Numpy矩阵运算
  3. Pandas数据科学库
  4. Matplotlib
  5. 线性代数

机器学习核心技术(目前可不学)

深度学习核心技术(必学)

  1. 人工神经网络
    • 感知机
    • 损失函数
    • 激活函数
    • 全连接层
    • DropOut
    • 优化方法及正则化
  2. BP神经网络
    • 正向计算
    • 链式法则
    • 权重更新
    • Back Propagation
    • 梯度消失/爆炸
    • Batch Normalization
  3. CNN卷积神经网络
    • 局部感受野
    • 权值共享
    • 卷积层
    • 池化层
  4. RNN循环神经网络
    • 梯度裁剪
    • 双向长短时记忆网络(BiLSTM)
    • 长短时记忆网络(LSTM)
    • 门控神经网络(GRU)
  5. Pytorch(学会看源码哦!)
    • 定义损失函数
    • 自动微分功能
    • 定义优化器
    • *定义模型结构

选修部分

(学到这边,其实就可以开始强化学习之旅了,这里按需学习,可以做科研地时候遇到再学)

  1. Transfomer原理(当今的大热门,对gpt感兴趣的可以看看)
  • 编码器
  • 解码器
  • 注意力机制
  • 语言模型
  • 模型超参数
  • 模型验证
  1. RNN及变体
  • 传统RNN
  • LSTM
  • Bi-LSTM
  • GRU
  • Bi-GRU
  • Seq2Seq

参考教程

入门书籍

对于入门深度学习的小白,我的建议是,教科书使用李沐老师的《动手学深度学习》,电子书链接:https://courses.d2l.ai/zh-v2/
单单啃书可能会比较难受,可以结合网址里李沐的教学视频,当然,如果觉得李沐的视频一开始听起来比较吃力,我的建议是可以先去看李宏毅老师的课,是面向他台湾大学的学生的,风格生动有趣,网址:https://aistudio.baidu.com/aistudio/loginmid?redirectUri=http%3A%2F%2Faistudio.baidu.com%2Feducation%2Fgroup%2Finfo%2F1978
可能需要先注册一个账号

挑战者部分:基于LLM和OCR的智能阅卷平台设计与开发

(这一块也是选修,后面对打比赛有兴趣的同学,可以思考一下,不一定去实现)
笔者与深度学习的渊源在于大一上学期期末,1月份报名的中国大学生服务外包创新创业大赛,主打一个以赛促学,当时笔者只有一点Java基础,不会python,也没有深度学习基础,通过边学边做题的方式,大约历时一个半月(45-50天时间)的时间完成了服创A01基于文心大模型的智能阅卷平台设计与开发赛题,并取得了东部赛区三等奖,最重要的是,这样一段经历加深了我对AI的了解,增强了在这个领域走下去的兴趣与动力,有兴趣有时间的朋友,可以试试用所学知识大概把框架设计出来(比如说实现思路),我觉得这就很厉害了,当然如果能把python完全实现出来,那么真的会是一件很棒的事情

整体背景

在当前大语言模型(LLM)快速发展的技术背景下,教育领域正在经历着重大的变革。在试卷评阅场景中,教师对自动化和智能化的评阅需求逐渐凸显。因此,设计一个自动评阅平台,结合计算机视觉的图像分析和大语言模型的语
义理解与生成能力,有望提高试卷评阅的效率、准确性和评阅维度丰富性。

题目要求

包括但不限于以下功能:
(1)试卷图像快速采集与存储;
(2)字符识别与提取;
(3)内容理解与评阅内容生成;

深度学习到这告一段落了,讲讲强化学习吧

有了上面的基础,大家的强化学习之旅想必会更加轻松愉快,笔者大一上学期先学习的强化学习,故走了不少弯路,一些东西等寒假学到深度学习才豁然开朗

笔者从入门强化学习,到后来越学越热爱,是因为,强化学习重决策,重在训练智能体学习决策的能力,而决策能力,恰是一个生物最重要的一个特性,每学一个算法,笔者都倾向于联系于实际生活,发现这一门学问讲的就是人生,比如说 e-greedy,探索与开发的平衡,经验回放池,回首过往,展望未来,所以当某个点想不通,不妨结合实际生活想想,如果这是一个人,它会怎么学习,也建议可以把Q-learning,Sarsa,等基础算法写一写加深理解什么的,上面的教材结合着学习,差不多到多智能体部分学习得差不多了,就开始论文吧,笔者以后若是有新的想法,也会更新此博客,愿与大家共同进步成长

posted @ 2024-06-17 13:53  糖子哥  阅读(51)  评论(0编辑  收藏  举报