随笔档案「2020年11月」 - dynmi

摘要：./keep 阅读全文

posted @ 2020-11-25 15:52 dynmi 阅读(114) 评论(0) 推荐(0)

摘要：intro 以下均基于分组交换技术我们将以下这样的一段连接称为一段链路假设发送端到接收端间有N条链路，对于对一个分组而言，忽略其他因素，端到端总时延$d(end-end) = N × ( d(proc) + d(queue) + d(trans) + d(prop) )$ statement 处阅读全文

posted @ 2020-11-25 15:43 dynmi 阅读(2219) 评论(1) 推荐(0)

<计算机网络 / 基础知识> 对原始的"报文交换"作出改进，得到"分组交换"技术

摘要：intro 分组交换是以报文交换为基础的，所以分组交换其实也可以叫做“报文分组交换”。 statement 报文的传送过程依赖于“存储转发机制”，从发送端开始，每经过一个交换机，该交换机的任务是：接收完整的报文，然后对报文进行缓存，此即为“存储” 等到下一个交换机节点空闲的时候，再将该报文发送给阅读全文

posted @ 2020-11-25 15:30 dynmi 阅读(353) 评论(0) 推荐(0)

线性支持向量机中的硬间隔(hard margin)和软间隔(soft margin)

摘要：intro The support-vector mechine is a new learning machine for two-group classification problems. The machine conceptually implements the following id 阅读全文

posted @ 2020-11-25 14:33 dynmi 阅读(3282) 评论(0) 推荐(0)

circle loss：统一softmax CrossEntropy loss 和 triplet loss / 2020

摘要：intro 刚看完《Circle Loss: A Unified Perspective of Pair Similarity Optimization》，随手写了一个overview。一句话总结这篇paper干了什么事情 "an unified perspective of learning w 阅读全文

posted @ 2020-11-24 19:28 dynmi 阅读(1552) 评论(0) 推荐(0)

针对PPO的一些Code-level性能优化技巧

摘要：Intro 这篇blog是我在看过Logan等人的“implementation matters in deep policy gradients: a case study on ppo and trpo“之后的总结。 reward clipping clip the rewards within 阅读全文

posted @ 2020-11-24 18:08 dynmi 阅读(485) 评论(0) 推荐(0)

Proximal Policy Optimization(PPO)算法 / 2017

摘要：Intro 2016年Schulman等人提出了Trust Region Policy Optimization算法。后来他们又发现TRPO算法在scalable（用于大模型和并行实现）, data efficient（高效利用采样数据）, robust（同一套超参，在大量不同的env上取得成功）上阅读全文

posted @ 2020-11-19 11:50 dynmi 阅读(4729) 评论(1) 推荐(1)

prioritied replay buffer / 2016

摘要：intro priority replay buffer提出于2016年。当时Deepmind的Tom Schaul等人对DQN中vanilla replay buffer不满意，于是在原来的ReplayBuffer基础上作出改进。prioritied relay buffer出现后，取代vanil 阅读全文

posted @ 2020-11-19 11:38 dynmi 阅读(841) 评论(0) 推荐(0)

linux中使用awk命令

摘要：准备 awk的取名是贝尔实验室的Alfred.Aho和Peter.Weinberger和Brain.Kernigham三个人的名字取首字母组成的。awk命令能从一个或多个文本文件或字符串中逐个记录或逐行扫描；将每个记录与匹配模式相比较；当发现匹配格式时抽取数据或格式化报文，或执行相应的文本操作。 a 阅读全文

posted @ 2020-11-17 16:24 dynmi 阅读(135) 评论(0) 推荐(0)

DQN中的ReplayBuffer和TargetNetwork有什么好处？

摘要：Intro 众所周知，在2014年，Deepmind使用DQN刷新了强化学习在Atari游戏上的SOTA记录。使DQN成为当年的SOTA，主要依靠两大利器：ReplayBuffer和TargetNetwork。 ReplayBuffer 采样与更新是这样的：更新是在采样中的，更新和采样靠repla 阅读全文

posted @ 2020-11-17 15:18 dynmi 阅读(2252) 评论(0) 推荐(0)

Haris Wang's Blog

11 2020 档案