从流域到海域

摘要：前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估介绍的是On-Polic... 阅读全文

posted @ 2019-10-21 22:08 从流域到海域阅读(106) 评论(0) 推荐(0) 编辑

摘要： IOB Inside-outside-beginning (tagging) IOB是一种标记技术，IOB foramt是一种在计算... 阅读全文

posted @ 2019-10-21 11:28 从流域到海域阅读(154) 评论(0) 推荐(0) 编辑

摘要：随着诸如DBPedia和FreeBase等大规模知识图谱的快速发展。知识图谱知识问答在过去几年引起了广泛注意。 KBQA: 知... 阅读全文

posted @ 2019-10-18 10:42 从流域到海域阅读(651) 评论(0) 推荐(0) 编辑

摘要：简单问题的界定是能通过查找一个事实就可以解答。本文关注baseline方法，是一篇概述博客。本文介绍的方法属于pipeline... 阅读全文

posted @ 2019-10-17 13:46 从流域到海域阅读(174) 评论(0) 推荐(0) 编辑

摘要：这篇博客是前面一篇博客Model-Free Policy Evaluation 无模型策略评估的一个小节，因为TD本身也是一种无... 阅读全文

posted @ 2019-10-16 00:08 从流域到海域阅读(123) 评论(0) 推荐(0) 编辑

摘要：这篇博文是另一篇博文Model-Free Policy Evaluation 无模型策略评估的一个小节，因为蒙特·卡罗尔策略评... 阅读全文

posted @ 2019-10-14 14:46 从流域到海域阅读(135) 评论(0) 推荐(0) 编辑

摘要： Mode-Free Policy Evaluation: Policy Evaluation Without Knowing How... 阅读全文

posted @ 2019-10-12 16:58 从流域到海域阅读(98) 评论(0) 推荐(0) 编辑

摘要： MDP Control 在这节内容里我们不讨论如何学习策略，我们仅仅探讨计算最佳策略。计算最佳策略和计算最佳价值都属于MDP ... 阅读全文

posted @ 2019-10-11 17:24 从流域到海域阅读(131) 评论(0) 推荐(0) 编辑

摘要：注意力机制起源于应用于NLP的RNN模型，但也在其他的领域有所应用。对注意力机制的理解也是算法面试经常提及的一道基础面试题，在这... 阅读全文

posted @ 2019-10-10 10:54 从流域到海域阅读(621) 评论(0) 推荐(0) 编辑

摘要：评估估计/预测一个给定策略的奖励期望。在强化学习中，我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来... 阅读全文

posted @ 2019-09-28 20:16 从流域到海域阅读(53) 评论(0) 推荐(0) 编辑