摘要: Pandas常用的数据清洗5大策略如下: 1.删除 DataFrame 中的不必要 columns 2.改变 DataFrame 的 index 3.使用 .str() 方法来清洗 columns 4.DataFrame.applymap() 函数按元素的清洗整个数据集 5.重命名 columns 阅读全文
posted @ 2018-10-29 22:03 时间带着假象流淌 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 箱形图是数据集中数据分布情况的衡量标准。它将数据集分为三个四分位数。盒形图表示数据集中的最小值,最大值,中值,第一四分位数和第四四分位数。 通过为每个数据集绘制箱形图, 比较数据集中的数据分布也很有用。 R中的盒形图通过使用boxplot()函数来创建。 基本公式为: > A <- c(79.98, 阅读全文
posted @ 2018-10-29 11:05 时间带着假象流淌 阅读(3730) 评论(0) 推荐(0) 编辑