李沐论文精读系列

吴恩达的视频课是基本功，李沐的动手课是入门，论文精读系列是对行业现状的科普。

1，如何读论文：
　　标题，摘要，intro介绍，method算法，exp实验，conclusion结论。
　　快速找到合适自己的文章精读。
　　第一遍：标题，摘要，结论，图表
　　第二遍，完整读，看是不是真的相关，要不要读引用
　　第三遍，精读，脑补整个实验过程，自己做一遍会用什么方法，能不能在他的方向上加深研究。
2，alexnet ，图像识别，深度卷积神经网络开山之作。
3，resnet ，图像识别，残差神经网络，让层变得更深
4，transformer，继MLP，CNN，RNN之后的第四大类模型。原来在进行序列处理时，是通过注意力连接编码器和解码器，但现在不用循环或卷积，纯基于注意力机制。
5，GNN，图神经网络，把序列或关系或像素都通过矩阵表示成图。
6，前面都是判别模型，现在要讲的GAN是生成模型。GAN是生成模型和辨别模型的对抗。
7，BERT，使NLP能在大数据集上使用深的神经网络。他是transformer 模型的双向编码器表示
8，Vision transformer ，2021，transformer 模型直接搬到计算机视觉领域。
9，MAE，2021，CV版的Bert。
10，moco，2020，视觉领域使用对比学习，无监督表征学习，表明无监督学习在视觉领域真的可以。
11，swin transformer ，2021，在vit 之后进一步证明了transformer 可以在视觉领域取得广泛应用。
12，新意度*有效性(效果好，成本低，安全)*问题大小=价值。
13，CLIP，来自openai ，2021，算图片特征和预训练出的文本特征的相似性，从而识别图片。
14，双流网络，视频理解领域的开山之作。2014，把关注空间信息的那支神经网络叫做空间流卷积神经网络，把关注运动信息的卷积神经网络叫做时间流神经网络，把输入的单帧图片和光流图片转为分类概率，两个概率加权平均，得到最终预测。
15，gpt，生成式预训练，Gpt用了transform 的解码器，
16，codex，来自openai，是gpt的应用，用GitHub的代码预训练好gpt模型，从而根据文档生成代码。局限性是文档不能太长，代码不能太复杂。
17，alphacode，来自deep mind，允许更长的文档，可以生成更复杂的代码。
18，i3d模型，在双流基础上进一步发展。
19，DETR，2020，eccv最佳论文，解决了目标检测领域需要去除冗余框的非极大值抑制问题。
用transformer 全局建模进行集合预测，不会输出那么多冗余的框。
20，DALLE2，openai ，根据文本生成图片，根据文本对已有图片进行修好。不让用，没开源，但GitHub 上有dalle mini，但模型效果不好
清华，谷歌都相继推出了文字生成图片的模型，他们都是基于扩散模型，这几年对GAN已经挖掘完了，但扩散模型刚开始。
21，vilt ，2021，多模态，把目标检测从多模态框架中移除了。还是基于transformer ，视觉文本多模态。
22，clip用在各个领域：分割，目标检测，目标跟踪，视频，3D，语音，图像生成，多模态，
23，Chain of thought ，属于大语言模型(gpt和Bert那种预测词语)。
24，whisper ，来自openai ，gpt作者爬了70万带标号的语音数据，直接训练了一个transformer模型，发现它能打败很多开源的或商用的语音识别模型。
25，neural corpus indexer，用transformer 做文本检索
26，chat gpt，在gpt3.5的基础上微调而来。他用了跟instruct gpt一样的方法，这个是有论文的。
27，1000万训练个语言模型，api收费，大公司就这么盈利的。
Anthropic LLM，chatgpt 的竞争对手，谷歌的。
28，gpt4，上传网页图片能生成对应网页源代码。