以前有人问我“书读了很多之后,但是其中内容都忘记了,那么读书的价值何在呢?”

我说:“训练数据在训练完模型之后就可以删掉了,只要权值文件网络结构保存好即可”

 

死记硬背是没有用的,因为死记硬背是一种过拟合的能力,而一个好的机器学习模型应该是泛化性能比较好的,所以好的教育应该是培养一个人举一反三的能力,而不是培养一个过拟合的模型

学习过程和训练过程是一样的 学习率是先调大 后调小

开始的时候大家都是学习一样的东西 学得粗糙 随着读大学有了专业 读硕士读博士专注其中一点 学习率是越来越小的

六个核桃是不能提升智力水平的,因为决定一个网络性能的是数据和网络结构,即使营养再好,

只是训练时候电力强劲一点罢了。

 

好的老师的作用应该是在学生不能理解的时候,帮助学生理解,也就是调整这个学习率,

让网络更好的拟合训练数据。另外一个好老师的主要作用应该是提供好的训练数据和预训练权值文件。

 

很多人是读书读到一定的时候就发现自己读不动了,他可能有以下几个原因:

1、先天缺陷,也就是网络结构设计不合理,本质上不具备拟合训练数据的能力

2、电力不够,不能继续训练网络

3、陷入局部极小值,长时间无法跳出该极小值

 

要说为什么dropout能解决过拟合问题,实际上过拟合就是想太多,比如看见大xiong就想到XX

只有dropout 或者冥想 分散注意力 断开一些神经网络连接 就能让人不要想太多

为什么说年轻人要多尝试,这个在深度强化学习里面叫做采样,为了有更多的行为样本库数据用于学习在不同环境下的价值函数

为什么说有的年轻人 叫做年少轻狂 行为有偏差 是因为神经网络训练初期的学习率还比较大

所以表现看上去有些震荡

另外我发现很多擅长学习的人 都有个错题本 把错题记录在里面 经常拿出来翻阅

这个实际上和机器学习里面的boosting方法很像 比如用第一轮训练的残差作为第二轮模型的target 然后训练多个模型做集成 典型的GBDT

 

如果不是关于机器学习 范围扩大到计算机来说 人的很多行为可以用一些计算机方面的说法来解释:

1、为什么人计算要草稿纸,草稿纸就是内存用于临时存放数据用的

2、中午吃饭的食堂的效益的关键点是那个结账的人,他是系统的IO能力,决定了系统处理速度的上限,打饭阿姨是CPU 排队是总线 位子是内存

这两年训练模型的过程中发现数据分布对于模型的预测性能至关重要,其实想想也能明白,换成人也是会因为环境中的数据分布对自己的认知产生影响,比如见得光头的都是和尚 自然人也会认为光头等于和尚。

这个时候怎么合理的对数据做增强就很重要,怎么增强不破坏原有的数据因果结构,是值得好好研究的问题。


增加一些内容来自今年的感悟,今年做了很多NLP相关项目研发,比如NL2SQL,知识图谱问答,其中用的最多的模型肯定是预训练模型。

预训练模型又有很多种,他们的区别主要是与训练的时候的任务是不相同的,实际上预训练是一种素质教育,用大量的语料让模型锻炼其对于语义的理解,更好的作用在下游任务上。

fine-turing是一种应试教育,应试教育要表现得好主要还是模型要素质比较好。

不同的预训练模型在不同的下游任务上表现不一样也是因为预训练的方式不一样。

所谓练武不练功 到老一场空,预训练是练功,fine turing是练武。


人生会随着自己的成长到不同的阶段 遇到不同的人 不同的事情

同样在强化学习中 随着训练的过程不断推进 reward的分布也会发生变化


 

计算机是认知心理学中一个非常有用的陷喻。它为思考工作记忆的本质和结构提供了一个直观生动的模型。通过简化计算机的运行过程,计算机存储信息的方式可以分为两种:硬盘和随机存取存储器(RAM)。硬盘是以稳定可靠的形式永久存储信息的方式,所有的软件程序、数据文件,以及计算机的操作系统都存储在硬盘中。要使用这些存储信息,你必须从硬盘中提取它们,并加载到RAM上。我们可以做这样的类比:存储在硬盘中的信息就像长时记忆,而RAM 就像工作记忆。

把工作记忆比作一个临时的工作空间非常合适:在计算机里,当程序执行的任务结束或者程序被关闭时,RAM会被清空和重置。计算机隐喻还提示了工作记忆的另外两个特性。

首先,RAM 对内容没有任何限制。也就是说,在程序和它使用的RAM部分的位置之间没有固定的联系,任何程序都可使用RAM 的任何部分。

第二,一台计算机拥有的RAM越多,它能运行的程序就越复杂和精妙,能同时运行的程序也越多。因此,如果把工作记忆比作RAM的隐喻成立,那么工作记忆里的存储将包含一个内容不受限制的灵活的缓冲器(在计算机科学中即为容量有限的记忆存储器),而认知能力由这个缓冲器的大小决定。

这个隐喻在多大程度上符合实际的人类工作记忆的结构与功能?研究证据表明它并不完全符合,但运用认知和神经科学的方法来研究工作记忆,在很多方面彻底改变了我们能够提出的科学问题,并为理解工作记忆的作用机制提供了新的见解。

posted on 2023-08-03 20:04  风生水起  阅读(13)  评论(0编辑  收藏  举报