python数据分析 datawhale

数据分析

数据载入及初步观察

载入数据

导入Numpy和pandas

import numpy as np
import pandas as pd

使用相对路径和绝对路径载入数据

df = pd.read_csv('train.csv')
df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集合/train.csv')

绝对路径：绝对路径是指文件在硬盘上真正存在的路径

相对路径：相对于自己的目标文件位置

每1000行为一个数据模块，逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

想使用分块处理，只需在read_csv()方法中加入chunksize=100000（这里假设每一块有100000行）

df=pd.read_csv('data.csv',header=None,chunksize=100000)

然后使用for循环去每块每块地去处理（chunk的type是DataFrame）

for chunk in df:
	print(chunk)

更改表头

修改列名a，b为A、B

df.columns = ['A','B']

只修改列名a为A

df.rename(columns={'a':'A'})

初步观察

观察前十行数据和后十五行数据

df.head(10)
df.tail(15)

打印摘要

df.info()

基本信息

df.info():          # 打印摘要
df.describe():      # 描述性统计信息
df.values:          # 数据 <ndarray>
df.to_numpy()       # 数据 <ndarray> (推荐)
df.shape:           # 形状 (行数, 列数)
df.columns:         # 列标签 <Index>
df.columns.values:  # 列标签 <ndarray>
df.index:           # 行标签 <Index>
df.index.values:    # 行标签 <ndarray>
df.head(n):         # 前n行
df.tail(n):         # 尾n行
pd.options.display.max_columns=n: # 最多显示n列
pd.options.display.max_rows=n:    # 最多显示n行
df.memory_usage():                # 占用内存(字节B)

判断数据是否为空

df.isnull()

保存数据

df.to_csv('train_chinese.csv')

pandas基础

DateFrame 和 Series

DataFrame既有行索引，也有列索引。类似于excel

行索引：index
列索引：columns
值：values

Series是一个一维的结构可储存整数，浮点数，字符串，python对象等类型的数据
创建Series的语法：pd.Series()；
常用的几个参数：

1.index，用于指定新的索引，
例如pd.Series(arr1,index=[‘a’,‘b’,‘c’,‘d’,‘e’])以a,b,c,d,e作为行索引；
2.dtype，用于指定元素的数据类型；

查看DataFrame数据的每列的项

df.columns

查看‘cabin’这列的所有项

df.Cabin
df['Cabin']

删除指定

筛选

pandas：数据筛选的8个操作_pandas筛选列表中的元素-CSDN博客

让行索引升序排序

sample.sort_index（）

让列索引升序排序

sample.sort_index(axis=1)

让列索引降序排序

sample.sort_index(axis=1，ascending=False)

posted @ 2024-03-12 21:42 hzelin 阅读(23) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· datawhale-动手学数据分析task1笔记

· pandas基础

· Python数据分析教程（二）：Pandas

· python_pandas入门(by offical document/reference)/loc和iloc操作/dataframe插入操作/pandas读取无表头的文件/查找某一列是否有某个值

· pandas学习

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· ollama系列01：轻松3步本地部署deepseek，普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现

公告

昵称： hzelin
园龄： 1年4个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

随笔档案

相册

python学习1(2)