11 2020 档案
摘要:intro 以下均基于分组交换技术 我们将以下这样的一段连接称为一段链路 假设发送端到接收端间有N条链路,对于对一个分组而言,忽略其他因素,端到端总时延$d(end-end) = N × ( d(proc) + d(queue) + d(trans) + d(prop) )$ statement 处
阅读全文
摘要:intro 分组交换是以报文交换为基础的,所以分组交换其实也可以叫做“报文分组交换”。 statement 报文的传送过程依赖于“存储转发机制”, 从发送端开始,每经过一个交换机,该交换机的任务是: 接收完整的报文,然后对报文进行缓存,此即为“存储” 等到下一个交换机节点空闲的时候,再将该报文发送给
阅读全文
摘要:intro The support-vector mechine is a new learning machine for two-group classification problems. The machine conceptually implements the following id
阅读全文
摘要:intro 刚看完《Circle Loss: A Unified Perspective of Pair Similarity Optimization》,随手写了一个overview。 一句话总结这篇paper干了什么事情 "an unified perspective of learning w
阅读全文
摘要:Intro 这篇blog是我在看过Logan等人的“implementation matters in deep policy gradients: a case study on ppo and trpo“之后的总结。 reward clipping clip the rewards within
阅读全文
摘要:Intro 2016年Schulman等人提出了Trust Region Policy Optimization算法。后来他们又发现TRPO算法在scalable(用于大模型和并行实现), data efficient(高效利用采样数据), robust(同一套超参,在大量不同的env上取得成功)上
阅读全文
摘要:intro priority replay buffer提出于2016年。当时Deepmind的Tom Schaul等人对DQN中vanilla replay buffer不满意,于是在原来的ReplayBuffer基础上作出改进。prioritied relay buffer出现后,取代vanil
阅读全文
摘要:准备 awk的取名是贝尔实验室的Alfred.Aho和Peter.Weinberger和Brain.Kernigham三个人的名字取首字母组成的。awk命令能从一个或多个文本文件或字符串中逐个记录或逐行扫描;将每个记录与匹配模式相比较;当发现匹配格式时抽取数据或格式化报文,或执行相应的文本操作。 a
阅读全文
摘要:Intro 众所周知,在2014年,Deepmind使用DQN刷新了强化学习在Atari游戏上的SOTA记录。使DQN成为当年的SOTA,主要依靠两大利器:ReplayBuffer和TargetNetwork。 ReplayBuffer 采样与更新是这样的: 更新是在采样中的,更新和采样靠repla
阅读全文

浙公网安备 33010602011771号