2024 年 5月 14 日随笔档案 - 高颜值的殺生丸

2024年5月14日

摘要：这个难度有些大，有两个policy，一个负责更新策略，另一个负责提供数据，实际这两个policy是一个东西，用policy1跑出一组数据给新的policy2训练，然后policy2跑数据给新的policy3训练，，，，直到policy（N-1）跑数据给新的policyN训练，过程感觉和DQN比较像，阅读全文

posted @ 2024-05-14 21:56 高颜值的殺生丸阅读(27) 评论(0) 推荐(0) 编辑

点此进入CSDN

高颜值的殺生丸

博主擅长python和c++，从事人工智能领域自然语言处理和图像识别方面的工作，欢迎大家来讨论交流

作者信息

昵称：

园龄：4年6个月

粉丝：1209

QQ：522414928