会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ForHHeart
博客园
首页
新随笔
联系
订阅
管理
随笔 - 39
文章 - 0
评论 - 0
阅读 -
2842
Reinforcement Learning Basic Notes
1 Terminology
State Action
Reference
Reinforcement Learning Basics - Shusen Wang | Youtube
好文要顶
关注我
收藏该文
微信分享
ForHHeart
粉丝 -
0
关注 -
0
+加关注
0
0
«
上一篇:
RecSys & Ads Basic Notes
»
下一篇:
Mixtral 8×7B (Mistral MoE)
posted @
2024-04-28 18:08
ForHHeart
阅读(
2
) 评论(
0
)
编辑
收藏
举报
刷新页面
返回顶部
登录后才能查看或发表评论,立即
登录
或者
逛逛
博客园首页
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
相关博文:
·
RNNs & LSTMs & GRUs
·
Pre-trained Model Summary
·
强化学习理论-第1课-基础概念
·
强化学习基础知识
·
强化学习Chapter1——基本认识
阅读排行:
·
DeepSeek 开源周回顾「GitHub 热点速览」
·
物流快递公司核心技术能力-地址解析分单基础技术分享
·
.NET 10首个预览版发布:重大改进与新特性概览!
·
AI与.NET技术实操系列(二):开始使用ML.NET
·
单线程的Redis速度为什么快?
公告
昵称:
ForHHeart
园龄:
2年9个月
粉丝:
0
关注:
0
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
阅读排行榜
1. Distributed Training: DeepSpeed ZeRO 1/2/3 + Accelerate, Megatron-LM(1023)
2. Env Config(359)
3. Mamba(210)
4. Pre-trained Model Summary(184)
5. Quantization: fp16, bf16, int8, fp4, nf4(138)
6. Tokenizer: BPE, WordPiece, and SentencePiece(137)
7. Mixtral 8×7B (Mistral MoE)(89)
8. Navigation Page(53)
9. Python Basic Notes(52)
10. DS/MLE Key Competency and Occupational Classification Concluded from Job Descriptions(46)
11. transformers(45)
12. DS / ML Basic Notes(44)
13. ML / AI Algorithms from Scratch(36)
14. Build Lightweight AI SaaS: Next.js + Tailwind CSS(35)
15. Momentum Contrast (MoCo) for Unsupervised Visual Representation Learning(33)
16. Reinforcement Learning from Human Feedback(RLHF): TRPO, PPO, DPO(32)
17. LeetCode Notes in Python(32)
18. Transformer(27)
19. LeetCode Hot 100(22)
20. Multimodal Large Language Model(MLLM)(20)
21. Retrieval-Augmented Generation(RAG)(20)
22. Text Representation: OneHot, BOW, N-grams, TF-IDF, Word2Vec, Glove, FastText, ELMO, BERT, SBERT(18)
23. RecSys & Ads Basic Notes(18)
24. LLaMA 2(18)
25. SQL Basic Notes(18)
26. BERT(15)
27. Data Structures and Sort Algorithms Notes for Coding Interview(14)
28. PyTorch Basic Notes(13)
29. Self-supervised Learning(12)
30. LLM local deployment: Xinference, Ollama(12)
31. Python Web Dev(11)
32. RNNs & LSTMs & GRUs(11)
33. Loss Function(10)
34. Docker(10)
35. Interview Experience for RecSys & Ads(9)
点击右上角即可分享
AI FOR CODE 大赛
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?