热之雪

2018年8月14日

摘要： 1) A Simple Option: Drop Columns with Missing Values 如果这些列具有有用信息（在未丢失的位置），则在删除列时，模型将失去对此信息的访问权限。此外，如果您的测试数据在您的训练数据没有的地方缺少值，则会导致错误。 2) A Better Option 阅读全文

posted @ 2018-08-14 21:06 热之雪阅读(419) 评论(0) 推荐(0) 编辑

Data Visualisation Cheet Sheet

摘要： Univariate plotting with pandas import pandas as pd reviews = pd.read_csv("../input/wine-reviews/winemag-data_first150k.csv", index_col=0) reviews.hea 阅读全文

posted @ 2018-08-14 18:30 热之雪阅读(274) 评论(0) 推荐(0) 编辑

2018年8月10日

数据预处理

摘要： 1、标准化，也称去均值和方差按比例缩放变换后各维特征有0均值，单位方差。也叫z-score规范化（零均值规范化）。计算方式是将特征值减去均值，除以标准差。 2、最小-最大规范化将特征缩放至特定范围内，变换到[0,1]区间（也可以是其他固定最小最大值的区间） 3、缩放稀疏（矩阵）数据中心化稀疏( 阅读全文

posted @ 2018-08-10 15:47 热之雪阅读(221) 评论(0) 推荐(0) 编辑

算法题目

摘要：关于树的层遍历，记得设置保存每一层的tmp和保存所有层的res 1、从上到下按层打印二叉树，同一层结点从左至右输出。每一层输出一行。思路：利用queue，第一层节点全部压进queue，进入下一层时先弹出保存然后再压下一层的节点。 /* struct TreeNode { int val; stru 阅读全文

posted @ 2018-08-10 15:46 热之雪阅读(224) 评论(0) 推荐(0) 编辑

2018年8月2日

集成方法

摘要： 1、集成方法概述集成学习（Ensemble Learning）有时也被笼统地称作提升（Boosting）方法，广泛用于分类和回归任务。它最初的思想很简单：使用一些（不同的）方法改变原始训练样本的分布，从而构建多个不同的分类器，并将这些分类器线性组合得到一个更强大的分类器，来做最后的决策。也就是常说阅读全文

posted @ 2018-08-02 00:21 热之雪阅读(690) 评论(0) 推荐(0) 编辑

公告