python数据分析 datawhale
数据分析
数据载入及初步观察
载入数据
导入Numpy和pandas
import numpy as np
import pandas as pd
使用相对路径和绝对路径载入数据
df = pd.read_csv('train.csv')
df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集合/train.csv')
绝对路径:绝对路径是指文件在硬盘上真正存在的路径
相对路径:相对于自己的目标文件位置
每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('train.csv', chunksize=1000)
想使用分块处理,只需在read_csv()方法中加入chunksize=100000(这里假设每一块有100000行)
df=pd.read_csv('data.csv',header=None,chunksize=100000)
然后使用for循环去每块每块地去处理(chunk的type是DataFrame)
for chunk in df:
print(chunk)
更改表头
修改列名a,b为A、B
df.columns = ['A','B']
只修改列名a为A
df.rename(columns={'a':'A'})
初步观察
观察前十行数据和后十五行数据
df.head(10)
df.tail(15)
打印摘要
df.info()
基本信息
df.info(): # 打印摘要
df.describe(): # 描述性统计信息
df.values: # 数据 <ndarray>
df.to_numpy() # 数据 <ndarray> (推荐)
df.shape: # 形状 (行数, 列数)
df.columns: # 列标签 <Index>
df.columns.values: # 列标签 <ndarray>
df.index: # 行标签 <Index>
df.index.values: # 行标签 <ndarray>
df.head(n): # 前n行
df.tail(n): # 尾n行
pd.options.display.max_columns=n: # 最多显示n列
pd.options.display.max_rows=n: # 最多显示n行
df.memory_usage(): # 占用内存(字节B)
判断数据是否为空
df.isnull()
保存数据
df.to_csv('train_chinese.csv')
pandas基础
DateFrame 和 Series
DataFrame既有行索引,也有列索引。类似于excel
行索引:index
列索引:columns
值:values
Series是一个一维的结构 可储存整数,浮点数,字符串,python对象等类型的数据
创建Series的语法:pd.Series();
常用的几个参数:
1.index,用于指定新的索引,
例如pd.Series(arr1,index=[‘a’,‘b’,‘c’,‘d’,‘e’])以a,b,c,d,e作为行索引;
2.dtype,用于指定元素的数据类型;
查看DataFrame数据的每列的项
df.columns
查看‘cabin’这列的所有项
df.Cabin
df['Cabin']
删除指定
筛选
pandas:数据筛选的8个操作_pandas筛选列表中的元素-CSDN博客
让行索引升序排序
sample.sort_index()
让列索引升序排序
sample.sort_index(axis=1)
让列索引降序排序
sample.sort_index(axis=1,ascending=False)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现