摘要: 通过python对大量文件及文件夹进行整理:重组、移动、删除等。 常用函数总结如下: 1. os.path.dirname(__file__):获取py脚本所在文件夹的绝对路径; 2. os.path.abspath(file_path):获取文件的绝对路径,包括文件名 3. os.path.joi 阅读全文
posted @ 2019-06-23 23:17 GadflyWZQ 阅读(918) 评论(0) 推荐(0) 编辑
摘要: 学习的路径和方法有很多,每个人想达到的目标也已经拥有的基础都不一样,条件也不一样,因此选择和制定适合自己的学习方法很重要。不可好高骛远,也不可贪多求全,知识和技巧是学不完的,重要的通过不断地学习来满足工作所需,然后逐渐成为高手,这是长期的学习积累过程,而现在对我来说就是入门,找到一份像样的工作。当然 阅读全文
posted @ 2019-05-25 14:02 GadflyWZQ 阅读(412) 评论(0) 推荐(0) 编辑
摘要: 降维 降维的动力来自于维度魔咒,动辄几万个甚至更多的特征会导致训练变慢,而且,维数越高越难找到合适的解决方案。特征的维数对应着相同维度的一个高维空间,高维空间中点与点的距离很容易变得很大,也就是实例之间的距离很大,训练集的特征空间很稀疏,这容易导致过拟合,当然,通过添加足够多的训练实例,在理论上可以 阅读全文
posted @ 2019-05-24 23:13 GadflyWZQ 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 决策树 决策树是一种强大的算法,可解释性强,对复杂数据集的拟合能力强,对数据集的前期处理(如特征缩放,集中等)要求很少。它的工作原理是,在每个节点上选取一个特征作为分类依据,并给定阈值,根据阈值来将实例归为左子树或右子数,然后对子节点进行同样的特征选取和阈值给定,直至所有节点上的实例都属于同一类别或 阅读全文
posted @ 2019-05-24 21:52 GadflyWZQ 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 支持向量机 线性SVM分类 SVM可用于回归、分类,甚至是异常检测,它很强大,广受欢迎。作为线性分类器时,它的核心思想是,不但要正确划分类别,而且要使得离决策边界最近的实例到决策边界的距离最大,这样就能使模型具有良好的泛化性能,因而也并称为大间隔分类。 这些决策边界之间就像街道一样,而 在街道之外增 阅读全文
posted @ 2019-05-19 16:30 GadflyWZQ 阅读(480) 评论(0) 推荐(0) 编辑
摘要: 这里讨论的问题是如何减少模型的过度拟合。一般地,对模型加上约束,也就是正则化,它的自由度越低,就越不容易过度拟合数据,比如对多项式模型来说,减低多项式模型的阶数就是一种正则化。正则化是一类方法,不是具体的某种方法。 对线性模型来说,通常通过约束模型的权重来实现正则化。对权重进行约束的方法有岭回归(R 阅读全文
posted @ 2019-05-11 17:50 GadflyWZQ 阅读(452) 评论(0) 推荐(0) 编辑
摘要: 模型太简单时,会在训练集上拟合不足,就是说模型的复杂程度不足以描述训练集的全部特征,当模型在训练集上表现不好时,你不能期待它在新的数据集上表现更好。但是在训练集上对于太多的细节和噪声都拟合起来,就会导致模型过度复杂,这样复杂的模型对特征的变化和噪声都很敏感,这就导致模型在新数据集上的泛化能力不足。 阅读全文
posted @ 2019-04-28 22:54 GadflyWZQ 阅读(441) 评论(0) 推荐(0) 编辑
摘要: 有了前面的基础,现在可以训练模型了。前面的讨论基本上把模型当成了以黑匣子,但是,如果我们不能对模型有进一步的认识,就不能快速地理解我们的使用的系统的运行原理。不仅如此,对模型的理论认知,有助于我们快速地选择模型、模型地训练方法以及一套适当的超参数,在后期还有助于执行错误分析和改善。因此,对模型地理论 阅读全文
posted @ 2019-04-27 21:16 GadflyWZQ 阅读(615) 评论(0) 推荐(0) 编辑