python数据分析 datawhale

数据分析

数据载入及初步观察

载入数据

导入Numpy和pandas

import numpy as np
import pandas as pd 

使用相对路径和绝对路径载入数据

df = pd.read_csv('train.csv')
df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集合/train.csv')

绝对路径:绝对路径是指文件在硬盘上真正存在的路径

相对路径:相对于自己的目标文件位置

每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

想使用分块处理,只需在read_csv()方法中加入chunksize=100000(这里假设每一块有100000行)

df=pd.read_csv('data.csv',header=None,chunksize=100000)

然后使用for循环去每块每块地去处理(chunk的type是DataFrame)

for chunk in df:
	print(chunk)

更改表头

修改列名a,b为A、B

df.columns = ['A','B']

只修改列名a为A

df.rename(columns={'a':'A'})

初步观察

观察前十行数据和后十五行数据

df.head(10)
df.tail(15)

打印摘要

df.info()

基本信息

df.info():          # 打印摘要
df.describe():      # 描述性统计信息
df.values:          # 数据 <ndarray>
df.to_numpy()       # 数据 <ndarray> (推荐)
df.shape:           # 形状 (行数, 列数)
df.columns:         # 列标签 <Index>
df.columns.values:  # 列标签 <ndarray>
df.index:           # 行标签 <Index>
df.index.values:    # 行标签 <ndarray>
df.head(n):         # 前n行
df.tail(n):         # 尾n行
pd.options.display.max_columns=n: # 最多显示n列
pd.options.display.max_rows=n:    # 最多显示n行
df.memory_usage():                # 占用内存(字节B)

判断数据是否为空

df.isnull()

保存数据

df.to_csv('train_chinese.csv')

pandas基础

DateFrame 和 Series

DataFrame既有行索引,也有列索引。类似于excel

行索引:index
列索引:columns
值:values

Series是一个一维的结构 可储存整数,浮点数,字符串,python对象等类型的数据
创建Series的语法:pd.Series();
常用的几个参数:

1.index,用于指定新的索引,
例如pd.Series(arr1,index=[‘a’,‘b’,‘c’,‘d’,‘e’])以a,b,c,d,e作为行索引;
2.dtype,用于指定元素的数据类型;

查看DataFrame数据的每列的项

df.columns

查看‘cabin’这列的所有项

df.Cabin
df['Cabin']

删除指定

image-20240312212036384

image-20240312212106180

筛选

pandas:数据筛选的8个操作_pandas筛选列表中的元素-CSDN博客

让行索引升序排序

sample.sort_index()

让列索引升序排序

sample.sort_index(axis=1)

让列索引降序排序

sample.sort_index(axis=1,ascending=False)
posted @   hzelin  阅读(23)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现
点击右上角即可分享
微信分享提示