Pandas-查看数据整体情况
一、获取要分析的数据
最近发现一个数据集搜索引擎,里面有很多数据集资源。界面设计小清新,看起来挺舒服的。通过关键词搜索,也能找到相关的数据集。如果找不到,下面也提供很多站点,可以扩大寻找范围。
遇见数据集-https://www.selectdataset.com/专注于发现数据集的引擎
二、 查看数据整体情况
import pandas as pd
import os
#获取文件目录
print(os.path.abspath(‘meteorological-data.xlsx’)) #获取当前目录文件下的工作目录路径
df=pd.read_excel(‘/Users/Desktop/meteorological-data.xlsx’)
#先查看 -维度层面
#1、 先查看-维度层面
df.head() #查看DataFrame 对象的前n行
df.shape #查看 行数和列数
df.info() #查看 索引、数据类型
2、查看单个维度层面数据是否正常
print(df[‘Item’].unique()) # 返回的是去重的枚举值 比如: ACT、TGT
print(df[‘Item’].nunique()) # 返回的是去重的枚举值的 数量 比如:2
#3、查看-建议一组使用 :单个值如何统计枚举数据 ? 所有值如何统计枚举数据?
df.Item.value_counts(dropna=False) # 总数10行 ,其中 ACT是6行,TGT是4行
df.apply(pd.Series.value_counts) # 这个计数统计比较厉害
#4、先查看重复行 、删除重复行
df.duplicated() #返回 True、FALSE 不太好用
#5、不改变原始数据,需要重新导出保存一份数据
dfdropdu=df.drop_duplicates()
dfdropdu.to_excel(‘/Users/Desktop/meteorological-data-new.xlsx’)
再查看-数据层面
df.describe() #查看数值类型的汇总统计 (count、mean、std、min、25%、50%、75%、max)