上一页 1 2 3 4 5 6 7 ··· 16 下一页
摘要: 到目前为止最轻松的作业 大概就是给一些(600个)人说的语音,让你判断测试集中的语音是谁说的 人的语音是一个 sequence,可以用 self-attention + FC 获得类别,这不就是 transformer 的 encoder 嘛! 代码:https://colab.research.g 阅读全文
posted @ 2024-01-31 22:44 SkyRainWind 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 调参调吐了。。做的最艰难的一次(虽然一共也没做几次) 最好做到了 private 0.82 / public 0.808 这题前前后后做了五天。。主要是后来 train 一次就得花很长很长时间,我的 kaggle 余额也用的差不多了。。 这个题目大概就是给你 11 种食物的图片,让你学习,并分类 题 阅读全文
posted @ 2024-01-31 19:37 SkyRainWind 阅读(231) 评论(0) 推荐(1) 编辑
摘要: 前言 当时老师要求我做 transformer 和 self-attention 的 ppt,结果当时在训练 ACM 没大有时间,就弄了个质量不高的,不出意外的被喷了。。。现在回头看看当时做的整体没有大问题,但是由于知识没有连贯起来导致有些地方没有提到,也没有形成一个比较完整的架构。 Transfo 阅读全文
posted @ 2024-01-31 14:28 SkyRainWind 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 在 slot-filling 问题(如给一个句子,自己分析出时间、地点等) 能解决的问题如给若干个向量,输出相同数量的向量 如果只连着不同的 FC,那么会导致无法读出是 arrive 还是 leave 的情况,导致错误 因此,需要 NN 来考虑到整个句子的信息,也就是需要有 memory,这就是 R 阅读全文
posted @ 2024-01-29 21:04 SkyRainWind 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 解决的问题:输入 \(n\) 个向量,输出相同个数的向量。(如,输入一个句子,输出句子中每个词的词性。每个单词转化成向量可以用 one-hot vector、word embedding 方法等) 一个比较初级的想法:将每个向量都连上去一个 FC(fully connected network),但 阅读全文
posted @ 2024-01-27 16:49 SkyRainWind 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 目前做的最好的是 private 0.758 / public 0.756 感觉 HW 2 就是随便调调参 + 网络结构改成 BN + Dropout 啊 代码:https://colab.research.google.com/drive/19uQsG-kjgMZsw1wSIkZz-M8JSLIx 阅读全文
posted @ 2024-01-26 00:21 SkyRainWind 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 调参调吐了。目前做的最好的是 private 1.09 / public 1.04 代码:https://colab.research.google.com/drive/1Rhne-XV8P6u_qSAjKsKA0NyAmbzQWbll?usp=sharing 分析 对代码的一些理解: 这里是构建神 阅读全文
posted @ 2024-01-25 23:59 SkyRainWind 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 使用场景:对图片进行分类 首先,将图片变成向量。例如,对于一个彩色的 \(N\times N\)(这个 N 指的是像素个数) 图片,其对应着一个 \(N\times N\times 3\) 的矩阵(其中 3 是图片的 channel,在彩色图片中,每个像素由 RGB 构成,因此 channel 为 阅读全文
posted @ 2024-01-25 18:41 SkyRainWind 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 核心问题:Critical Point 在 Gradient Descent 的时候,如果遇到梯度为 0 的情况,导致无法继续 optimization,这样的点叫做 Critcal Point 如果最后优化的结果不好,则出现这样的点的原因有 2 个:一个是到 local minima 了,另一个是 阅读全文
posted @ 2024-01-23 14:12 SkyRainWind 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 回归(Regression) neural network 工作的核心就是:找函数 - 计算参数对应的 loss - 沿着 gradient 的(逆)方向更新参数使 loss 减小 如何计算 gradient?需要用到 back propogation(反向传播)原理 反向传播 首先,loss 值等 阅读全文
posted @ 2024-01-21 19:41 SkyRainWind 阅读(94) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 16 下一页