摘要: 特征工程的整体思路: 1. 对于特征的理解、评估 2. 特征处理: 2.1 特征处理 2.1.1 特征清洗 清洗异常、采样 2.1.2 预处理 单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。 多特征情况: 降维:PCA、LDA(这个不太了解、待学习) 特征选择 阅读全文
posted @ 2018-07-03 15:54 fancyU 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 结合最近正做的蚂蚁金服比赛中遇到的小问题,以kaggle上的house prices competition的一篇kernel的特征工程处理为例子做一些简单的总结。 house prices地址:https://www.kaggle.com/c/house-prices-advanced-regre 阅读全文
posted @ 2018-05-18 15:37 fancyU 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 一、安装ubuntu系统 1.ubuntu系统是Linux系统的一种,和centos差别不大,但是个人还是建议大家安装ubuntu,它更适合国内使用习惯,换句话说更亲切。 2.安装方法不再赘述,网上有很多教程,我遇到的一个问题是联想BIOS一定要关闭security boot,否则u盘都找不到。 3 阅读全文
posted @ 2018-05-17 11:39 fancyU 阅读(1706) 评论(0) 推荐(0) 编辑
摘要: 然后再次输入: 即可正常安装。 转自:https://www.cnblogs.com/fsong/p/5823826.html 阅读全文
posted @ 2018-05-16 10:13 fancyU 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy 首先我们绘制出皮尔森系相关度的热力图,关于皮尔森系数可以翻阅资料,是一个很简洁的判断相关度 阅读全文
posted @ 2018-05-10 15:30 fancyU 阅读(959) 评论(0) 推荐(0) 编辑
摘要: 原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy Step 5: Model Data 数据科学是交叉学科,我们仅仅称他为计算机科学的一部分 阅读全文
posted @ 2018-05-10 10:17 fancyU 阅读(1145) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy Step 4: Perform Exploratory Analysis w 阅读全文
posted @ 2018-05-07 16:16 fancyU 阅读(546) 评论(0) 推荐(0) 编辑
摘要: 原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy 问题处理之前要知道的事: 数据科学框架(A Data Science Framework) 阅读全文
posted @ 2018-04-30 13:24 fancyU 阅读(1008) 评论(0) 推荐(0) 编辑
摘要: kaggle学习笔记之Titanic问题 阅读全文
posted @ 2018-04-25 10:24 fancyU 阅读(835) 评论(0) 推荐(0) 编辑