摘要: # data is a DataFrame type data.sample(nums) # 随机取nums个值 data.col.unique() # 返回col取的所有值 #对于变量(不论连续或者离散或者类型变量), 得到其col的取值直方图 fig = data.loan_amnt.hist( 阅读全文
posted @ 2020-02-18 16:48 纯洁的小兄弟 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 特征选择是选择相关特征的子集用于机器学习模型构建的过程,数据越多,结果就越好,这并不总是事实。包含不相关的特征(对预测没有帮助的特征)和冗余的特征(与他人无关的特征)只会使学习过程不堪重负,容易导致过度拟合。 特征选择的好处: 不同的特征子集为不同的算法提供了最佳性能。所以它和机器学习模型训练不是一 阅读全文
posted @ 2020-02-18 14:50 纯洁的小兄弟 阅读(455) 评论(0) 推荐(0) 编辑
摘要: 1.Feature Scaling 对数据的自变量或特征范围进行标准化的一种方法。在数据处理中,它也称为数据规范化,通常在数据预处理步骤中执行。 为什么要进行Feature Scaling: 如果输入范围变化,在某些算法中,对象函数将不能正常工作。 梯度下降收敛得更快,与特征缩放完成。梯度下降法是逻 阅读全文
posted @ 2020-02-18 14:32 纯洁的小兄弟 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 1.缺失值 当数据缺失时出现的问题: 当有缺失值时有些算法没法work 即使是处理缺失数据的算法,如果不进行处理,模型也会导致不准确的结论 缺失机制: Missing Completely as Random:如果所有观测值丢失的概率相同,则变量完全随机丢失(MCAR)。当数据是MCAR时,那些丢失 阅读全文
posted @ 2020-02-18 13:46 纯洁的小兄弟 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 1.数据类型 离散变量: 值为整数(计数)的变量称为离散变量。例如,一个顾客在超市购买的商品数量是离散的。客户可以购买1件、25件或50件商品,但不能购买3.7件商品。它总是一个整数。以下是离散变量的例子: 借款人的活跃银行帐户数目(1,4,7,…) 家庭宠物的数量 家庭中孩子的数量 现实中我们可能 阅读全文
posted @ 2020-02-18 13:23 纯洁的小兄弟 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 特征工程是机器学习,甚至是深度学习中最为重要的一部分,也是课本上最不愿意讲的一部分。特征工程是data science中最有创造力的一部分。因为往往和具体的数据相结合,很难优雅的系统的讲好。所以课本上会讲一下理论知识比较扎实的归一化,降维等部分,而忽略一些很dirty hand的特征工程技巧。 Ka 阅读全文
posted @ 2020-02-18 12:58 纯洁的小兄弟 阅读(172) 评论(0) 推荐(0) 编辑