Fork me on GitHub
摘要: 通常,在Data Science中,预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用 "sklearn文档" 中的一些东西来说明,主要把各个标准化方法的应用场景以及优缺点总结概括,以来充当笔记。 首先,我要引用我自己的文章[Feature Preprocessing on Kaggle ] 阅读全文
posted @ 2018-05-01 19:26 Byron_NG 阅读(51608) 评论(0) 推荐(7) 编辑
摘要: Search是数据结构中最基础的应用之一了,在python中,search有一个非常简单的方法如下: False 不过这只是search的一种形式,下面列出多种形式的search用做记录: 一、顺序搜索 顺着list中的元素一个个找,找到了返回True,没找到返回False False True 二 阅读全文
posted @ 2018-05-01 14:13 Byron_NG 阅读(1855) 评论(0) 推荐(0) 编辑
摘要: 更新至2018.5.31 字典生成DataFrame 今天一个字典生成一个DataFrame,采用了以下形式,每一个value都是一个数(不是vector) 结果爆出了如下错误 原来所以,将字典生成DataFrame,您可以用 ,当然也不一定非要这样,所以三种方法是可以成功的: 引自: "统计师的P 阅读全文
posted @ 2018-05-01 10:46 Byron_NG 阅读(1227) 评论(0) 推荐(0) 编辑
摘要: 原文: "数据太大爆内存怎么办?七条解决思路 | 机器学习开发手册" 在研究、应用机器学习算法的经历中,相信大伙儿经常遇到数据集太大、内存不够用的情况。 这引出一系列问题: 怎么加载十几、几十 GB 的数据文件? 运行数据集的时候算法崩溃了,怎么办? 怎么处理内存不足导致的错误? 本文将讨论一些常用 阅读全文
posted @ 2018-05-01 00:01 Byron_NG 阅读(2362) 评论(0) 推荐(0) 编辑