随笔分类 - 数据清洗
数据清洗 数据分析 Pandas
摘要:条件过滤 我们需要看第一季度的数据是怎样的,就需要使用条件过滤 体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据 最后整合上面两种条件,在一季度体感湿度比较舒适的数据 列排序 数据按照某列进行排序 “by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列
阅读全文
摘要:不想总结 2017,过去的就过去吧,不过自己在 2017 年还是收获了很多。2018 最重要的就是赚钱,因为要买奶粉了。赚钱还是需要两把刷子,所以,2018 的小目标就是学习数据分析和机器学习。希望自己在这两个领域能搞点事情。 不想总结 2017,过去的就过去吧,不过自己在 2017 年还是收获了很
阅读全文
摘要:数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据清洗很枯燥,但是随着数据清理技巧越来越熟练,就有越有可能从他人无从下
阅读全文
摘要:预览数据 这次我们使用 Artworks.csv ,我们选取 100 行数据来完成本次内容。具体步骤: DataFrame 是 Pandas 内置的数据展示的结构,展示速度很快,通过 DataFrame 我们就可以快速的预览和分析数据。代码如下: 统计日期数据 我们仔细观察一下 Date 列的数据,
阅读全文
摘要:概要 了解数据 分析数据问题 清洗数据 整合代码 了解数据 在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的。我们尝试去理解数据的列/行、记录、数据格式、语义错误、缺失的条目以及错误的格式,这样我们就可以大概了解数据分析之前要做哪些“清理”工作。 本次我们需要一个 patient_h
阅读全文
摘要:概要 概要 准备工作 检查数据 处理缺失数据 添加默认值 删除不完整的行 删除不完整的列 规范化数据类型 必要的转换 重命名列名 保存结果 更多资源 准备工作 检查数据 处理缺失数据 添加默认值 删除不完整的行 删除不完整的列 规范化数据类型 必要的转换 重命名列名 保存结果 更多资源 Pandas
阅读全文
摘要:内容概要: 我们怎么知道是混乱的数据 修复 nan 值和字符串/浮点类型的混乱问题 “-”怎么处理 整合代码 我们怎么知道是混乱的数据 修复 nan 值和字符串/浮点类型的混乱问题 “-”怎么处理 整合代码 混杂数据最重要的一个问题就是:怎么知道是否是混杂的数据。 下面准备使用 NYC 311 服务
阅读全文