随笔分类 -  数据处理

摘要:偏度和峰度是数据处理中常用的用来分析数据分布程度的指标,Pandas中提供了这两个函数。 skew 偏度 偏度(skew),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来 阅读全文
posted @ 2022-04-07 21:01 Asp1rant 阅读(2371) 评论(0) 推荐(0) 编辑
摘要:seaborn是一个基于pyplot的数据可视化库,可以比较简单美观地用于展示基于Pandas数据类型的数据 missingno是一个基于pyplot的用于展示数据空值的直观工具,在处理大数据时也非常有用 安装: pip install seaborn pip install missingno 使 阅读全文
posted @ 2022-02-08 22:34 Asp1rant 阅读(432) 评论(0) 推荐(0) 编辑
摘要:本文主要介绍Pandas数据类型和空值处理 数据类型dtype pandas数据导入后会自动转变为dtype类型,查看类型: reviews.price.dtype 类型转换: reviews.points.astype('float64') 关于dtypes的详细信息参考: https://pan 阅读全文
posted @ 2022-02-05 15:59 Asp1rant 阅读(51) 评论(0) 推荐(0) 编辑
摘要:本文介绍数据的分组groupby, 排列sort,重命名rename,合成combine 数据以上一篇所介绍的wine数据为例 groupby 参考:https://zhuanlan.zhihu.com/p/101284491 以taster_twitter_handle创建一个分组并按照每个tas 阅读全文
posted @ 2022-02-05 14:29 Asp1rant 阅读(46) 评论(0) 推荐(0) 编辑
摘要:本文介绍常用Pandas列(Series)数据特征提取方法 我们以一组酒的数据为例,将数据保存到reviews,然后用heads()预览一下: import pandas as pd pd.set_option("display.max_rows", 5) reviews = pd.read_csv 阅读全文
posted @ 2022-02-05 11:33 Asp1rant 阅读(62) 评论(0) 推荐(0) 编辑
摘要:最近在Kaggle上学习Machine Learning,对于机器学习工程师来说pandas实在太重要,写几篇博客作pandas课程的笔记 1. DataFrame的创建 DataFrame可以看作一个数据表格,创建一个带索引的DataFrame: pd.DataFrame({'Bob': ['I 阅读全文
posted @ 2022-01-25 21:48 Asp1rant 阅读(56) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示