Fork me on GitHub
摘要: 1 算法的优缺点 1.1 优点 在DQN算法中,神经网络输出的是动作的q值,这对于一个agent拥有少数的离散的动作还是可以的。但是如果某个agent的动作是连续的,这无疑对DQN算法是一个巨大的挑战,为了解决这个问题,前辈们将基于值的方法改成了基于策略的方法,即输出动作的概率。 1.2 缺点 策略 阅读全文
posted @ 2019-04-17 13:03 最后的战役aag 阅读(1064) 评论(0) 推荐(0) 编辑
摘要: 1 DQN的引入 由于q_learning算法是一直更新一张q_table,在场景复杂的情况下,q_table就会大到内存处理的极限,而且在当时深度学习的火热,有人就会想到能不能将从深度学习中借鉴方法,将深度学习的方法应用到强化学习中。13年,谷歌的deepmind团队就发表了关于DQN算法的论文, 阅读全文
posted @ 2019-04-13 14:32 最后的战役aag 阅读(784) 评论(0) 推荐(0) 编辑
摘要: 1 读文件 1.1 简单读文件 1.2 readline()和readlines() readline():每次读文件中的一句。 readlines():将整个文件中的字符全部读出,并将其存在一个列表里,列表中的每个元素是文件中的一句。 在读大文件时尽量不要用readlines,太占用内存。 1.3 阅读全文
posted @ 2019-03-28 21:07 最后的战役aag 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 1 字符串中*的使用 *可以使字符串重复n次 2 索引获取字符串的字符元素 3 in成员符 4 字符串格式化 5 字符串拼接 采用+(建议尽量不要采用此方法,效率低,时间复杂度为平方级) 采用join方法 字符串是join前面的那一字符串为拼接间隔 6 字符串常用的内置方法 6.1 count() 阅读全文
posted @ 2019-03-28 17:31 最后的战役aag 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 1 图的定义:G = (V, E),如图G1 V = {a, b, c, d, e, f} E = {{a, b}, {b, c}, {b, d}, {d, e}} 2 有向图,无向图:例如G1和G2是无向图,G3和G4是有向图 3 端点:被边连接的两个节点,若为有向边则存在首端和尾端 4 邻节点: 阅读全文
posted @ 2019-03-28 16:50 最后的战役aag 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 1 字典基础 1.1 字典是无序的对象的集合,通过键来存取,字典的键只能是不可变类型。 1.3 字典的长度可变,异构,任意嵌套。 1.2 python中不可变数据类型包括:数值类型,字符串和元组。 2 创建字典的四种方法 2.1如果你可以事先可以拼出整个字典: 2.2 如果你需要动态的一次创建字典的 阅读全文
posted @ 2019-03-22 20:48 最后的战役aag 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 1 列表 列表由一系列按照特定顺序的元素组成,其中的元素可以使不同的数据类型,用[ ]来表示列表,用逗号来分割列表中的元素。 1.1 列表操作之切片 列表的切片操作可以进行两个列表的简单拷贝 1.2 列表操作之增 1.3 列表操作之删 1.4 列表操作之改 1.5 列表内置方法之count() 1. 阅读全文
posted @ 2019-03-17 13:03 最后的战役aag 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 1 python中的保留字 保留字也叫做关键字,不能把它们用在任何标识符名称,可以使用以下命令来查看python的保留字 2 普通数据类型 int、float、complex 1 # int为整数类型,可以将浮点型强制转化成整形 2 a = 10.0 3 print(type(a)) 4 a = i 阅读全文
posted @ 2019-03-07 08:51 最后的战役aag 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 一、变量的命名规则 二、常量 python中并没有关键字const,在python中常常用大写的变量名作为常量。 三、变量的重新赋值 阅读全文
posted @ 2019-02-20 16:57 最后的战役aag 阅读(176) 评论(0) 推荐(0) 编辑