上一页 1 2 3 4 5 6 7 8 9 ··· 31 下一页
摘要: 前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估 介绍的是On-Polic... 阅读全文
posted @ 2019-10-21 22:08 从流域到海域 阅读(102) 评论(0) 推荐(0) 编辑
摘要: IOB Inside-outside-beginning (tagging) IOB是一种标记技术,IOB foramt是一种在计算... 阅读全文
posted @ 2019-10-21 11:28 从流域到海域 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 随着诸如DBPedia和FreeBase等大规模知识图谱的快速发展。知识图谱知识问答在过去几年引起了广泛注意。 KBQA: 知... 阅读全文
posted @ 2019-10-18 10:42 从流域到海域 阅读(625) 评论(0) 推荐(0) 编辑
摘要: 简单问题的界定是能通过查找一个事实就可以解答。本文关注baseline方法,是一篇概述博客。 本文介绍的方法属于pipeline... 阅读全文
posted @ 2019-10-17 13:46 从流域到海域 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 这篇博客是前面一篇博客Model-Free Policy Evaluation 无模型策略评估的一个小节,因为TD本身也是一种无... 阅读全文
posted @ 2019-10-16 00:08 从流域到海域 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 这篇博文是另一篇博文Model-Free Policy Evaluation 无模型策略评估的一个小节,因为 蒙特·卡罗尔策略评... 阅读全文
posted @ 2019-10-14 14:46 从流域到海域 阅读(128) 评论(0) 推荐(0) 编辑
摘要: Mode-Free Policy Evaluation: Policy Evaluation Without Knowing How... 阅读全文
posted @ 2019-10-12 16:58 从流域到海域 阅读(92) 评论(0) 推荐(0) 编辑
摘要: MDP Control 在这节内容里我们不讨论如何学习策略,我们仅仅探讨计算最佳策略。 计算最佳策略和计算最佳价值都属于MDP ... 阅读全文
posted @ 2019-10-11 17:24 从流域到海域 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 注意力机制起源于应用于NLP的RNN模型,但也在其他的领域有所应用。对注意力机制的理解也是算法面试经常提及的一道基础面试题,在这... 阅读全文
posted @ 2019-10-10 10:54 从流域到海域 阅读(583) 评论(0) 推荐(0) 编辑
摘要: 评估 估计/预测一个给定策略的奖励期望。 在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来... 阅读全文
posted @ 2019-09-28 20:16 从流域到海域 阅读(53) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 31 下一页