11 2020 档案

摘要:./keep 阅读全文
posted @ 2020-11-25 15:52 dynmi 阅读(114) 评论(0) 推荐(0)
摘要:intro 以下均基于分组交换技术 我们将以下这样的一段连接称为一段链路 假设发送端到接收端间有N条链路,对于对一个分组而言,忽略其他因素,端到端总时延$d(end-end) = N × ( d(proc) + d(queue) + d(trans) + d(prop) )$ statement 处 阅读全文
posted @ 2020-11-25 15:43 dynmi 阅读(2219) 评论(1) 推荐(0)
摘要:intro 分组交换是以报文交换为基础的,所以分组交换其实也可以叫做“报文分组交换”。 statement 报文的传送过程依赖于“存储转发机制”, 从发送端开始,每经过一个交换机,该交换机的任务是: 接收完整的报文,然后对报文进行缓存,此即为“存储” 等到下一个交换机节点空闲的时候,再将该报文发送给 阅读全文
posted @ 2020-11-25 15:30 dynmi 阅读(353) 评论(0) 推荐(0)
摘要:intro The support-vector mechine is a new learning machine for two-group classification problems. The machine conceptually implements the following id 阅读全文
posted @ 2020-11-25 14:33 dynmi 阅读(3282) 评论(0) 推荐(0)
摘要:intro 刚看完《Circle Loss: A Unified Perspective of Pair Similarity Optimization》,随手写了一个overview。 一句话总结这篇paper干了什么事情 "an unified perspective of learning w 阅读全文
posted @ 2020-11-24 19:28 dynmi 阅读(1552) 评论(0) 推荐(0)
摘要:Intro 这篇blog是我在看过Logan等人的“implementation matters in deep policy gradients: a case study on ppo and trpo“之后的总结。 reward clipping clip the rewards within 阅读全文
posted @ 2020-11-24 18:08 dynmi 阅读(485) 评论(0) 推荐(0)
摘要:Intro 2016年Schulman等人提出了Trust Region Policy Optimization算法。后来他们又发现TRPO算法在scalable(用于大模型和并行实现), data efficient(高效利用采样数据), robust(同一套超参,在大量不同的env上取得成功)上 阅读全文
posted @ 2020-11-19 11:50 dynmi 阅读(4729) 评论(1) 推荐(1)
摘要:intro priority replay buffer提出于2016年。当时Deepmind的Tom Schaul等人对DQN中vanilla replay buffer不满意,于是在原来的ReplayBuffer基础上作出改进。prioritied relay buffer出现后,取代vanil 阅读全文
posted @ 2020-11-19 11:38 dynmi 阅读(841) 评论(0) 推荐(0)
摘要:准备 awk的取名是贝尔实验室的Alfred.Aho和Peter.Weinberger和Brain.Kernigham三个人的名字取首字母组成的。awk命令能从一个或多个文本文件或字符串中逐个记录或逐行扫描;将每个记录与匹配模式相比较;当发现匹配格式时抽取数据或格式化报文,或执行相应的文本操作。 a 阅读全文
posted @ 2020-11-17 16:24 dynmi 阅读(135) 评论(0) 推荐(0)
摘要:Intro 众所周知,在2014年,Deepmind使用DQN刷新了强化学习在Atari游戏上的SOTA记录。使DQN成为当年的SOTA,主要依靠两大利器:ReplayBuffer和TargetNetwork。 ReplayBuffer 采样与更新是这样的: 更新是在采样中的,更新和采样靠repla 阅读全文
posted @ 2020-11-17 15:18 dynmi 阅读(2252) 评论(0) 推荐(0)