摘要: 可用模型很多:不同的算法产生不同的模型,相同的算法用不同的参数也产生不同的模型。 怎么选?使用训练误差最小的那个模型?显然不行,过拟合问题。 模型选择涉及两个问题:一是评估方案的实验设计问题,这方面主要是如何从已有数据中分离出测试数据集,二是评估度量问题,即各种指标,诸如RMSE,精度等。 理想方案 阅读全文
posted @ 2021-11-17 00:34 能豆子314 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 训练一个模型的目的,是希望这个模型在预测中有好的表现,即预测值和真实值之间的差异尽可能小,这种差异称为误差(Error) 误差分为两种,一是在训练数据上误差,称为训练误差,也叫经验误差,二是在新样本上的误差,称为泛化误差。 我们训练一个模型想获得的理想结果是训练误差和泛化误差都比较小。最根本的目标还 阅读全文
posted @ 2021-11-17 00:22 能豆子314 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 使用计算机来解决问题,绕不过算法,传统算法 由人来设定具体的规则,让机器来执行。人是将,机器是兵。人胜于思考力,机器胜于执行力(计算速度快)。 后来发现有些问题,依靠传统算法,计算机难以解决,一方面问题越来越复杂,规则难以制定,或者说规则一直在变化,另一方面也遇到了一些在人看来很容易解决,但是机器规 阅读全文
posted @ 2021-11-17 00:14 能豆子314 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 摘要:randn,standard_normal, normal这三个函数都可以返回随机正态分布的数组, 它们是从特殊到一般的形式。normal这个函数更加通用,且名字好记,建议平时使用这个函数生成正态分布。 这三个函数都可以返回随机正态分布(高斯Gaussian 分布)的数组,都可以从numpy. 阅读全文
posted @ 2019-10-21 19:56 能豆子314 阅读(19509) 评论(0) 推荐(2) 编辑
摘要: 工作中遇到的问题:如何在多线程的程序中同时记录日志? 最初图省事,使用了最原始的open函数来写日志,因为开始使用的写文件模式的是追加('a'),发现并没有线程不安全的现象,各个线程的的日志信息都写入到了日志文件中。 后来将写文件模式改成了只写默认('w'),这时候线程不安全的问题就显露出来了,只有 阅读全文
posted @ 2019-04-27 15:20 能豆子314 阅读(1892) 评论(0) 推荐(0) 编辑