随笔档案「2021年11月」 - B站-水论文的程序猿

强化学习之MountainCarContinuous（注册自己的gym环境）

摘要：1. 问题概述问题：MountainCarContinuous-v0 代码地址：https://github.com/openai/gym/blob/master/gym/envs/classic_control/continuous_mountain_car.py 细节：动力不足的汽车必须爬上一阅读全文

posted @ 2021-11-30 18:19 B站-水论文的程序猿阅读(2818) 评论(0) 推荐(0)

实例：（[Flappy Bird Q-learning]

摘要：实例：（Flappy Bird Q-learning）问题分析让小鸟学习怎么飞是一个强化学习（reinforcement learning）的过程，强化学习中有状态(state)、动作(action)、奖赏(reward)这三个要素。智能体（Agent，在这里就是指我们聪明的小鸟）需要根据当前状阅读全文

posted @ 2021-11-22 08:56 B站-水论文的程序猿阅读(332) 评论(0) 推荐(0)

seq2seq之双向解码

摘要：在文章《玩转Keras之seq2seq自动生成标题》中我们已经基本探讨过seq2seq，并且给出了参考的Keras实现。本文则将这个seq2seq再往前推一步，引入双向的解码机制，它在一定程度上能提高生成文本的质量（尤其是生成较长文本时）。本文所介绍的双向解码机制参考自《Synchronous B 阅读全文

posted @ 2021-11-06 11:03 B站-水论文的程序猿阅读(678) 评论(0) 推荐(0)

Beam Search快速理解及代码解析

摘要：Beam Search快速理解及代码解析(上) Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search（集束搜索）。生成式任务相比普通的分类、tagging等NLP任务会复杂不少。在生成的时候，模型的输出是一个时间步一个时间步依次获得的，而且前面时间步的结果还会影阅读全文

posted @ 2021-11-02 16:19 B站-水论文的程序猿阅读(8376) 评论(0) 推荐(0)

【B站：水论文的程序猿】

道阻且长，与君共勉

11 2021 档案

公告