2020 年 2月 18 日随笔档案 - 纯洁的小兄弟

2020年2月18日

摘要： # data is a DataFrame type data.sample(nums) # 随机取nums个值 data.col.unique() # 返回col取的所有值 #对于变量（不论连续或者离散或者类型变量），得到其col的取值直方图 fig = data.loan_amnt.hist( 阅读全文

posted @ 2020-02-18 16:48 纯洁的小兄弟阅读(188) 评论(0) 推荐(0) 编辑

05_特征选择

摘要：特征选择是选择相关特征的子集用于机器学习模型构建的过程,数据越多，结果就越好，这并不总是事实。包含不相关的特征(对预测没有帮助的特征)和冗余的特征(与他人无关的特征)只会使学习过程不堪重负，容易导致过度拟合。特征选择的好处：不同的特征子集为不同的算法提供了最佳性能。所以它和机器学习模型训练不是一阅读全文

posted @ 2020-02-18 14:50 纯洁的小兄弟阅读(488) 评论(0) 推荐(0) 编辑

04_特征工程

摘要： 1.Feature Scaling 对数据的自变量或特征范围进行标准化的一种方法。在数据处理中，它也称为数据规范化，通常在数据预处理步骤中执行。为什么要进行Feature Scaling：如果输入范围变化，在某些算法中，对象函数将不能正常工作。梯度下降收敛得更快，与特征缩放完成。梯度下降法是逻阅读全文

posted @ 2020-02-18 14:32 纯洁的小兄弟阅读(316) 评论(0) 推荐(0) 编辑

03_特征清洗

摘要： 1.缺失值当数据缺失时出现的问题：当有缺失值时有些算法没法work 即使是处理缺失数据的算法，如果不进行处理，模型也会导致不准确的结论缺失机制： Missing Completely as Random:如果所有观测值丢失的概率相同，则变量完全随机丢失(MCAR)。当数据是MCAR时，那些丢失阅读全文

posted @ 2020-02-18 13:46 纯洁的小兄弟阅读(394) 评论(0) 推荐(0) 编辑

02_数据探索

摘要： 1.数据类型离散变量：值为整数(计数)的变量称为离散变量。例如，一个顾客在超市购买的商品数量是离散的。客户可以购买1件、25件或50件商品，但不能购买3.7件商品。它总是一个整数。以下是离散变量的例子: 借款人的活跃银行帐户数目(1,4,7，…) 家庭宠物的数量家庭中孩子的数量现实中我们可能阅读全文

posted @ 2020-02-18 13:23 纯洁的小兄弟阅读(289) 评论(0) 推荐(0) 编辑

01_简介

摘要：特征工程是机器学习，甚至是深度学习中最为重要的一部分，也是课本上最不愿意讲的一部分。特征工程是data science中最有创造力的一部分。因为往往和具体的数据相结合，很难优雅的系统的讲好。所以课本上会讲一下理论知识比较扎实的归一化，降维等部分，而忽略一些很dirty hand的特征工程技巧。 Ka 阅读全文

posted @ 2020-02-18 12:58 纯洁的小兄弟阅读(175) 评论(0) 推荐(0) 编辑

纯洁的小兄弟

公告