机器学习 - 随笔分类 - SkyRainWind

具身智能相关知识

摘要：欧拉角和四元数旋转矩阵：二维情况可用三角函数公式方便推出。三维情况就是将对应的轴的行和列变成 0 和 1. 欧拉角就是使用一个确定的顺序（如先x轴，再y轴，再z轴）进行旋转，每次旋转的依据是对应的旋转矩阵。但是在某些特殊情况下，会产生万向锁丢失其中一个自由度。欧拉角入门：https://blog 阅读全文

posted @ 2025-02-05 18:29 SkyRainWind 阅读(73) 评论(0) 推荐(0)

*** 下解决 git push/pull timeout 的问题

摘要：solution via github *** 下默认的端口一般是 7890：因此只需要在命令行中输入 7890 端口对应的指令即可 git config --global https.proxy http://127.0.0.1:7890 git config --global https. 阅读全文

posted @ 2024-07-19 15:10 SkyRainWind 阅读(6) 评论(0) 推荐(0)

暑假读论文总结

摘要：前排说明：后面的论文都放在 git 上了，这篇文章就坑掉了 7.8 SAM-G 待填 7.9 MAE（Masked Autoencoders Are Scalable Vision Learners）来源：CVPR 2022 在视觉领域应用 auto encoder 的比较早的工作了，是自监督学习阅读全文

posted @ 2024-07-09 20:22 SkyRainWind 阅读(83) 评论(0) 推荐(0)

RILIR 复现 & 一些 idea

摘要：伪代码：在 if done 的时候，在环境中已经跑了一个 trajectory 了，利用当前的 trajectory 和专家的 demo 求一下 reward（文章中用的是 optimal transport 的几种方法）否则，就继续在 observation 的基础上利用 actor 学到的策阅读全文

posted @ 2024-04-19 21:15 SkyRainWind 阅读(54) 评论(0) 推荐(0)

IL 相关读论文记录

摘要：读读读 RILIR 链接：https://arxiv.org/pdf/2310.14274.pdf 本文主要是对 IRL 的改进。首先，设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。接着，再设计阅读全文

posted @ 2024-04-16 20:49 SkyRainWind 阅读(83) 评论(0) 推荐(0)

再探强化学习

摘要：主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的（如 \(V\) 和 \(Q\) 函数），而策略梯度（policy gradient）则是基于策略的。后者显式的训练一个策略，对这个策略使用梯度下降等方法。 actor-critic 本质上阅读全文

posted @ 2024-03-14 16:35 SkyRainWind 阅读(120) 评论(1) 推荐(1)

李宏毅《机器学习》总结 - Q-learning（待填）

摘要：之前提到过，强化学习中有 policy gradient 的方法，其实质是利用 MC 的方法对于当前的模型（\(\theta\) 或者 \(\pi\)，可以认为是由状态到行为的映射）重复跑很多次，求出估计的“期望值”，最终目标是最大化他们的 reward（因此可以将 loss 设置成负的期望）。这阅读全文

posted @ 2024-03-04 22:06 SkyRainWind 阅读(67) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - 2022 HW11（Domain Adaptation） Strong Baseline

摘要：不是很难做的作业，调调 epoch，改改权重就能过 medium，最后按照论文调一下可变的权重就能过 strong。题目大意是说给定训练集是 10 种现实里的生物和他们的标签，希望对测试集中种类相同但是画风不同的生物进行分类。采用 DaNN 的架构，feature extractor 用于 “提阅读全文

posted @ 2024-02-23 00:37 SkyRainWind 阅读(225) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - RL

摘要：引入给一张动物的图片，分辨是什么动物。这个问题可以用 CNN 解决（HW3）。核心是通过有标注（label）的图片进行学习。而在下围棋时，如何落子是一个难以标注的问题，但是机器可以学到什么是好的，什么是不好的。这就是强化学习的适用场景。结构总的目标是想找一个 Actor（或称 policy）阅读全文

posted @ 2024-02-22 14:44 SkyRainWind 阅读(272) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - 2022 HW8（Anomaly Detection、ResNet） Strong Baseline

摘要：重新学习了一下 ResNet。。这作业平均一跑就是3、4个小时题目大意是让你做异常检测（anomaly detection），即给你一些正常的图片，再让你测试图片是正常的还是异常的（可以理解为 2 分类问题，只不过其中一个类别是无限大的）代码：https://www.kaggle.com/cod 阅读全文

posted @ 2024-02-20 15:57 SkyRainWind 阅读(461) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - 2022 HW7（BERT） Strong Baseline

摘要：相对比较轻松的作业，不用做大的修改，代码写的也挺清晰的。。。题目是要求实作一个截取版的 QA，即给一个文档和一个问题，要求在文档中找这个问题的答案（同时保证是连续的一段），给训练集、dev集（个人感觉就是认为划定了 training set 和 validation set）和答案集代码：htt 阅读全文

posted @ 2024-02-18 23:16 SkyRainWind 阅读(177) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - BERT（待填）

摘要：BERT 实际上是一个 tranformer encoder，输入一串向量输出相同个数的向量。以下以句子为例，句子可以认为是一串向量。 pre-train 如何训练 BERT 呢（事实上应该是预训练，pre-train）？一个常用的方法是做填空题。即，随机挖去一些字，让模型学习如何去填空。其中这个阅读全文

posted @ 2024-02-16 14:30 SkyRainWind 阅读(102) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - 2022 HW6（GAN、WGAN-GP） Strong Baseline

摘要：这个作业因为是在台大自己的 OJ 上交，因此没法看到评分了，不过把 strong baseline 所要求的的 weight clipping 和 WGAN-GP 都实作了一下，效果确实比一开始要好。。 Simple：没有人型，不放了 Medium： Strong：（比 medium 的人型还是阅读全文

posted @ 2024-02-14 01:34 SkyRainWind 阅读(337) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - GAN

摘要：GAN（Generative Adverserial Network），用于生成图片等直观理解算法的流程可理解为以下两步：首先，有两个 network，分别是 generator（G）和 discriminator（D）。其中 G 能根据参数输出图片，固定 G，更新 D，使得 D 给 G 阅读全文

posted @ 2024-02-12 01:28 SkyRainWind 阅读(132) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - 2022 HW4（self-attention、transformer） Strong Baseline

摘要：到目前为止最轻松的作业大概就是给一些（600个）人说的语音，让你判断测试集中的语音是谁说的人的语音是一个 sequence，可以用 self-attention + FC 获得类别，这不就是 transformer 的 encoder 嘛！代码：https://colab.research.g 阅读全文

posted @ 2024-01-31 22:44 SkyRainWind 阅读(381) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - 2022 HW3（图像识别、CNN） Strong Baseline

摘要：调参调吐了。。做的最艰难的一次（虽然一共也没做几次）最好做到了 private 0.82 / public 0.808 这题前前后后做了五天。。主要是后来 train 一次就得花很长很长时间，我的 kaggle 余额也用的差不多了。。这个题目大概就是给你 11 种食物的图片，让你学习，并分类题阅读全文

posted @ 2024-01-31 19:37 SkyRainWind 阅读(454) 评论(0) 推荐(1)

李宏毅《机器学习》总结 - Transformer

摘要：前言当时老师要求我做 transformer 和 self-attention 的 ppt，结果当时在训练 ACM 没大有时间，就弄了个质量不高的，不出意外的被喷了。。。现在回头看看当时做的整体没有大问题，但是由于知识没有连贯起来导致有些地方没有提到，也没有形成一个比较完整的架构。 Transfo 阅读全文

posted @ 2024-01-31 14:28 SkyRainWind 阅读(127) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - RNN & LSTM

摘要：在 slot-filling 问题（如给一个句子，自己分析出时间、地点等）能解决的问题如给若干个向量，输出相同数量的向量如果只连着不同的 FC，那么会导致无法读出是 arrive 还是 leave 的情况，导致错误因此，需要 NN 来考虑到整个句子的信息，也就是需要有 memory，这就是 R 阅读全文

posted @ 2024-01-29 21:04 SkyRainWind 阅读(195) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - Self-attention

摘要：解决的问题：输入 \(n\) 个向量，输出相同个数的向量。（如，输入一个句子，输出句子中每个词的词性。每个单词转化成向量可以用 one-hot vector、word embedding 方法等）一个比较初级的想法：将每个向量都连上去一个 FC（fully connected network），但阅读全文

posted @ 2024-01-27 16:49 SkyRainWind 阅读(73) 评论(0) 推荐(0)

李宏毅《机器学习》总结 - 2022 HW2（分类） Strong Baseline

摘要：目前做的最好的是 private 0.758 / public 0.756 感觉 HW 2 就是随便调调参 + 网络结构改成 BN + Dropout 啊代码：https://colab.research.google.com/drive/19uQsG-kjgMZsw1wSIkZz-M8JSLIx 阅读全文

posted @ 2024-01-26 00:21 SkyRainWind 阅读(283) 评论(0) 推荐(0)

SkyRainWind

空を見ろ。空を見続けろ。答えはそこにある。

随笔分类 - 机器学习

公告