随笔分类 - 机器学习
摘要:欧拉角和四元数 旋转矩阵:二维情况可用三角函数公式方便推出。三维情况就是将对应的轴的行和列变成 0 和 1. 欧拉角就是使用一个确定的顺序(如先x轴,再y轴,再z轴)进行旋转,每次旋转的依据是对应的旋转矩阵。但是在某些特殊情况下,会产生万向锁丢失其中一个自由度。 欧拉角入门:https://blog
阅读全文
摘要:solution via github Clash 下默认的端口一般是 7890: 因此只需要在命令行中输入 7890 端口对应的指令即可 git config --global https.proxy http://127.0.0.1:7890 git config --global https.
阅读全文
摘要:前排说明:后面的论文都放在 git 上了,这篇文章就坑掉了 7.8 SAM-G 待填 7.9 MAE(Masked Autoencoders Are Scalable Vision Learners) 来源:CVPR 2022 在视觉领域应用 auto encoder 的比较早的工作了,是自监督学习
阅读全文
摘要:伪代码: 在 if done 的时候,在环境中已经跑了一个 trajectory 了,利用当前的 trajectory 和专家的 demo 求一下 reward(文章中用的是 optimal transport 的几种方法) 否则,就继续在 observation 的基础上利用 actor 学到的策
阅读全文
摘要:读读读 RILIR 链接:https://arxiv.org/pdf/2310.14274.pdf 本文主要是对 IRL 的改进。 首先,设计了一个提取关键信息的网络 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。 接着,再设计
阅读全文
摘要:主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的(如 和 函数),而策略梯度(policy gradient)则是基于策略的。后者显式的训练一个策略,对这个策略使用梯度下降等方法。 actor-critic 本质上
阅读全文
摘要:之前提到过,强化学习中有 policy gradient 的方法,其实质是利用 MC 的方法对于当前的模型( 或者 ,可以认为是由状态到行为的映射)重复跑很多次,求出估计的“期望值”,最终目标是最大化他们的 reward(因此可以将 loss 设置成负的期望)。 这
阅读全文
摘要:不是很难做的作业,调调 epoch,改改权重就能过 medium,最后按照论文调一下可变的权重就能过 strong。 题目大意是说给定训练集是 10 种现实里的生物和他们的标签,希望对测试集中种类相同但是画风不同的生物进行分类。 采用 DaNN 的架构,feature extractor 用于 “提
阅读全文
摘要:引入 给一张动物的图片,分辨是什么动物。这个问题可以用 CNN 解决(HW3)。核心是通过有标注(label)的图片进行学习。 而在下围棋时,如何落子是一个难以标注的问题,但是机器可以学到什么是好的,什么是不好的。这就是强化学习的适用场景。 结构 总的目标是想找一个 Actor(或称 policy)
阅读全文
摘要:重新学习了一下 ResNet。。这作业平均一跑就是3、4个小时 题目大意是让你做异常检测(anomaly detection),即给你一些正常的图片,再让你测试图片是正常的还是异常的(可以理解为 2 分类问题,只不过其中一个类别是无限大的) 代码:https://www.kaggle.com/cod
阅读全文
摘要:相对比较轻松的作业,不用做大的修改,代码写的也挺清晰的。。。 题目是要求实作一个截取版的 QA,即给一个文档和一个问题,要求在文档中找这个问题的答案(同时保证是连续的一段),给训练集、dev集(个人感觉就是认为划定了 training set 和 validation set)和答案集 代码:htt
阅读全文
摘要:BERT 实际上是一个 tranformer encoder,输入一串向量输出相同个数的向量。 以下以句子为例,句子可以认为是一串向量。 pre-train 如何训练 BERT 呢(事实上应该是预训练,pre-train)?一个常用的方法是做填空题。即,随机挖去一些字,让模型学习如何去填空。其中这个
阅读全文
摘要:这个作业因为是在台大自己的 OJ 上交,因此没法看到评分了,不过把 strong baseline 所要求的的 weight clipping 和 WGAN-GP 都实作了一下,效果确实比一开始要好。。 Simple: 没有人型,不放了 Medium: Strong: (比 medium 的人型还是
阅读全文
摘要:GAN(Generative Adverserial Network),用于生成图片等 直观理解 算法的流程可理解为以下两步: 首先,有两个 network,分别是 generator(G) 和 discriminator(D)。其中 G 能根据参数输出图片, 固定 G,更新 D,使得 D 给 G
阅读全文
摘要:到目前为止最轻松的作业 大概就是给一些(600个)人说的语音,让你判断测试集中的语音是谁说的 人的语音是一个 sequence,可以用 self-attention + FC 获得类别,这不就是 transformer 的 encoder 嘛! 代码:https://colab.research.g
阅读全文
摘要:调参调吐了。。做的最艰难的一次(虽然一共也没做几次) 最好做到了 private 0.82 / public 0.808 这题前前后后做了五天。。主要是后来 train 一次就得花很长很长时间,我的 kaggle 余额也用的差不多了。。 这个题目大概就是给你 11 种食物的图片,让你学习,并分类 题
阅读全文
摘要:前言 当时老师要求我做 transformer 和 self-attention 的 ppt,结果当时在训练 ACM 没大有时间,就弄了个质量不高的,不出意外的被喷了。。。现在回头看看当时做的整体没有大问题,但是由于知识没有连贯起来导致有些地方没有提到,也没有形成一个比较完整的架构。 Transfo
阅读全文
摘要:在 slot-filling 问题(如给一个句子,自己分析出时间、地点等) 能解决的问题如给若干个向量,输出相同数量的向量 如果只连着不同的 FC,那么会导致无法读出是 arrive 还是 leave 的情况,导致错误 因此,需要 NN 来考虑到整个句子的信息,也就是需要有 memory,这就是 R
阅读全文
摘要:解决的问题:输入 个向量,输出相同个数的向量。(如,输入一个句子,输出句子中每个词的词性。每个单词转化成向量可以用 one-hot vector、word embedding 方法等) 一个比较初级的想法:将每个向量都连上去一个 FC(fully connected network),但
阅读全文
摘要:目前做的最好的是 private 0.758 / public 0.756 感觉 HW 2 就是随便调调参 + 网络结构改成 BN + Dropout 啊 代码:https://colab.research.google.com/drive/19uQsG-kjgMZsw1wSIkZz-M8JSLIx
阅读全文