02 2025 档案

摘要:License CC BY-NC-SA 4.0 本文包含 AI 生成的内容。它们会用 斜体 标注。 想象一下,在一个充满隐私泄露和数据监控的世界里,你还能找到一个真正属于你的通讯空间吗?Matrix 就是这样一个革命性的选择!它不仅仅是一个即时通讯工具,而是一场对自由、安全和隐私的捍卫。Matrix 阅读全文
posted @ 2025-02-16 12:21 383494 阅读(9) 评论(0) 推荐(0) 编辑
摘要:License: CC BY-NC-SA 4.0 对于图像生成之类的任务,它要「生成」一些东西,而它的标准答案不是唯一的,这时怎么梯度下降呢? 只要在输入里加一个随机变量 Z,服从一个较为简单的分布就行了。由于输入的 Z 不同,整个网络的输出也变成了一个(和 Z 的分布有关的 阅读全文
posted @ 2025-02-12 18:47 383494 阅读(6) 评论(0) 推荐(0) 编辑
摘要:License: CC BY-NC-SA 4.0 seq2seq:输出长度由模型自行决定。例如语音识别,机器翻译。 即使不是 seq2seq 的问题,也可以用 seq2seq model 大力出奇迹。例如文法剖析,将「deep learning is very powerful」拆成「(S (NP 阅读全文
posted @ 2025-02-04 09:36 383494 阅读(3) 评论(0) 推荐(0) 编辑
摘要:License: CC BY-NC-SA 4.0 之前都是输入一个固定长度的东西,但是如果每次输入的东西长度不一样呢? 例如输入一个句子。当然可以用 one-hot encoding 来编码单词,但这样就看不到某些单词之间的相关性。一个更好的方法是 word embedding。 对于音频输入的情况 阅读全文
posted @ 2025-02-03 11:44 383494 阅读(2) 评论(0) 推荐(0) 编辑
摘要:License: CC BY-NC-SA 4.0 有时候,对特定任务调整神经网络的架构会使它做得更好。例如,CNN 用于图像识别。 一张彩色图片是 3 个矩阵(RGB),当然可以把它拉直成向量然后直接硬上全连接层,但是这样会带来非常多的参数,增加了 overfitting 的风险。 下面我们要基于一 阅读全文
posted @ 2025-02-03 11:44 383494 阅读(4) 评论(0) 推荐(0) 编辑
摘要:License: CC BY-NC-SA 4.0 为什么我用 gradient descent 训了半天 loss 还是不降? local minima & saddle point 有可能是你卡在 local minima(极小值)了,但大部分情况下这只是个 saddle point(某一维是极小 阅读全文
posted @ 2025-02-03 11:43 383494 阅读(1) 评论(0) 推荐(0) 编辑
摘要:License: CC BY-NC-SA 4.0 loss (test) large loss (test) small loss (train) large 可能是 optimization 不够或模型不够复杂 运气好 loss (train) small overfitting 或 mismat 阅读全文
posted @ 2025-02-03 11:43 383494 阅读(2) 评论(0) 推荐(0) 编辑
摘要:License: CC BY-NC-SA 4.0 机器学习的任务是什么?考虑几个常见的任务:输入一段语音,输出语音中的文字;输入一张图片,输出图片中的内容;输入棋局局面,输出下一步怎么走。总结一下就是找到一个函数。 几个常见的任务: Regression 输出一个标量。 Classification 阅读全文
posted @ 2025-02-03 11:41 383494 阅读(2) 评论(0) 推荐(0) 编辑
摘要:License: CC BY-NC-SA 4.0 前言 本文含有剧透。 本文中 AI 生成的部分会用 斜体 标注。涉及到电影片段定位的部分以 B 站电影 为参考。 We are merely explorers of infinity in the pursuit of absolute prefe 阅读全文
posted @ 2025-02-02 21:22 383494 阅读(45) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示