摘要:
工业界有一个大家公认的看法,“数据和特征决定了机器学习项目的上限,而算法只是尽可能地逼近这个上限”。在实战中,特征工程几乎需要一半以上的时间,是很重要的一个部分。缺失值处理、异常值处理、数据标准化、不平衡等问题大家应该都已经手到擒来小菜一碟了,本文我们探讨一个很容易被忽视的坑:数据一致性。 众所周知 阅读全文
摘要:
机器学习深度研究:特征选择过滤法中几个重要的统计学概念————卡方检验、方差分析、相关系数、p值 问题引出 当我们拿到数据并对其进行了数据预处理,但还不能直接拿去训练模型,还需要选择有意义的特征(即特征选择),这样做有四个好处: 1、避免维度灾难 2、降低学习难度 3、减少过拟合 4、增强对特征和特 阅读全文
摘要:
机器学习数学基础:学习线性代数,千万不要误入歧途!推荐一个正确学习路线 序言 写完《机器学习深度研究:机器学习中的高等数学/微积分及Python实现》,觉得十分对不起读者,写的自己都不满意。 就像前篇所说,这种极度基础的知识是最难介绍的,我也在思考如何转变方式,把问题讲清楚。但是头条是不支持数学公式 阅读全文
摘要:
被 Pandas read_csv 坑了 -- 不怕前路坎坷,只怕从一开始就走错了方向 Pandas 是python的一个数据分析包,纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas 就是为解决数据分析任务生的,无论是数据分析还是机器学习项目数据预处理中, Pan 阅读全文
摘要:
相信很多同学入门Python的第一行代码都是print('Hello World!') print是初学者最先接触的Python函数,但是很多人可能到现在也不完全清楚它的用法。 print(*objects, sep=’ ‘, end=’\n’, file=sys.stdout, flush=Fal 阅读全文
摘要:
pip 的高阶玩法 pip 应该是大家最熟悉的 Python 包安装与管理工具了,但是除了pip install 这个最常用的命令,还有很多有用的玩法。这里就介绍几个我平时会用到的,希望对大家有所帮助。 pip freeze 这个命令可以查看已经安装的包及版本信息,当你要换电脑,或者朋友想复刻你已安 阅读全文
摘要:
遇事不决,量子力学;不懂配色,赛博朋克。推荐一个Python可视化库 12月10日,历经多次跳票后,波兰公司CD Projekt Red制作的《赛博朋克2077》终于正式发售,在Steam上线不到3小时,便一举超越《Among Us》、《Dota 2》与《反恐精英:全球攻势》,达成100万玩家同时在 阅读全文
摘要:
用Python自动清理系统垃圾,再也不用360安全卫士了 在Windows在安装和使用过程中都会产生相当多的垃圾文件,包括临时文件(如:.tmp、._mp)日志文件(.log)、临时帮助文件(.gid)、磁盘检查文件(.chk)、临时备份文件(如:.old、*.bak)以及其他临时文件。特别是如果一 阅读全文