摘要:
之前提到过,强化学习中有 policy gradient 的方法,其实质是利用 MC 的方法对于当前的模型(\(\theta\) 或者 \(\pi\),可以认为是由状态到行为的映射)重复跑很多次,求出估计的“期望值”,最终目标是最大化他们的 reward(因此可以将 loss 设置成负的期望)。 这 阅读全文
摘要:
可能要写点轮子。。。先学学前端知识吧,记录一下。 遍历: for(let i of S){i...} for(let i in S){S[i]...} 数组增长: S = [] S.push(1) S.push([1, 2, 3]) S.pop() JS 是弱类型的语言。目前感觉到的特性有: 数组不 阅读全文
摘要:
不是很难做的作业,调调 epoch,改改权重就能过 medium,最后按照论文调一下可变的权重就能过 strong。 题目大意是说给定训练集是 10 种现实里的生物和他们的标签,希望对测试集中种类相同但是画风不同的生物进行分类。 采用 DaNN 的架构,feature extractor 用于 “提 阅读全文
摘要:
引入 给一张动物的图片,分辨是什么动物。这个问题可以用 CNN 解决(HW3)。核心是通过有标注(label)的图片进行学习。 而在下围棋时,如何落子是一个难以标注的问题,但是机器可以学到什么是好的,什么是不好的。这就是强化学习的适用场景。 结构 总的目标是想找一个 Actor(或称 policy) 阅读全文
摘要:
重新学习了一下 ResNet。。这作业平均一跑就是3、4个小时 题目大意是让你做异常检测(anomaly detection),即给你一些正常的图片,再让你测试图片是正常的还是异常的(可以理解为 2 分类问题,只不过其中一个类别是无限大的) 代码:https://www.kaggle.com/cod 阅读全文
摘要:
原文发于百度贴吧。 前言 这两天爆肝总算把后篇打完了,前篇由于是在 steam 玩的英文版,加上还要应付学校里的事,前前后后打了1个多月。后篇打的就快多了。 当打完后篇之后去看前篇的op,看到了许多以前没注意到的细节,不得不狠狠夸赞诚哥的才能。唉,诚哥以前这么牛,为啥现在越来越拉了…… 接下来钝评一 阅读全文
摘要:
相对比较轻松的作业,不用做大的修改,代码写的也挺清晰的。。。 题目是要求实作一个截取版的 QA,即给一个文档和一个问题,要求在文档中找这个问题的答案(同时保证是连续的一段),给训练集、dev集(个人感觉就是认为划定了 training set 和 validation set)和答案集 代码:htt 阅读全文
摘要:
BERT 实际上是一个 tranformer encoder,输入一串向量输出相同个数的向量。 以下以句子为例,句子可以认为是一串向量。 pre-train 如何训练 BERT 呢(事实上应该是预训练,pre-train)?一个常用的方法是做填空题。即,随机挖去一些字,让模型学习如何去填空。其中这个 阅读全文
摘要:
这个作业因为是在台大自己的 OJ 上交,因此没法看到评分了,不过把 strong baseline 所要求的的 weight clipping 和 WGAN-GP 都实作了一下,效果确实比一开始要好。。 Simple: 没有人型,不放了 Medium: Strong: (比 medium 的人型还是 阅读全文
摘要:
GAN(Generative Adverserial Network),用于生成图片等 直观理解 算法的流程可理解为以下两步: 首先,有两个 network,分别是 generator(G) 和 discriminator(D)。其中 G 能根据参数输出图片, 固定 G,更新 D,使得 D 给 G 阅读全文