Pandas-查看数据整体情况

一、获取要分析的数据
最近发现一个数据集搜索引擎，里面有很多数据集资源。界面设计小清新，看起来挺舒服的。通过关键词搜索，也能找到相关的数据集。如果找不到，下面也提供很多站点，可以扩大寻找范围。
遇见数据集-https://www.selectdataset.com/专注于发现数据集的引擎

二、查看数据整体情况
import pandas as pd
import os
#获取文件目录
print(os.path.abspath(‘meteorological-data.xlsx’)) #获取当前目录文件下的工作目录路径
df=pd.read_excel(‘/Users/Desktop/meteorological-data.xlsx’)
#先查看 -维度层面
#1、先查看-维度层面
df.head() #查看DataFrame 对象的前n行
df.shape #查看行数和列数
df.info() #查看索引、数据类型

2、查看单个维度层面数据是否正常

print(df[‘Item’].unique()) # 返回的是去重的枚举值比如： ACT、TGT
print(df[‘Item’].nunique()) # 返回的是去重的枚举值的数量比如：2

#3、查看-建议一组使用：单个值如何统计枚举数据？所有值如何统计枚举数据？
df.Item.value_counts(dropna=False) # 总数10行，其中 ACT是6行，TGT是4行
df.apply(pd.Series.value_counts) # 这个计数统计比较厉害

#4、先查看重复行、删除重复行
df.duplicated() #返回 True、FALSE 不太好用

#5、不改变原始数据，需要重新导出保存一份数据
dfdropdu=df.drop_duplicates()
dfdropdu.to_excel(‘/Users/Desktop/meteorological-data-new.xlsx’)

再查看-数据层面

df.describe() #查看数值类型的汇总统计（count、mean、std、min、25%、50%、75%、max)

posted @ 2024-06-14 18:29 数据猎手小k 阅读(34) 评论(0) 收藏举报来源

刷新页面返回顶部

Pandas-查看数据整体情况

2、查看单个维度层面数据是否正常

再查看-数据层面

公告