numpy和pandas的基本用法

安装numpy模块

pip install numpy

可以通过导入numpy模块来使用它

import numpy as np

1.创建数组：

a = np.array([1, 2, 3, 4, 5])  # 从列表创建一维数组
b = np.zeros((3, 3))  # 创建一个3x3的全零数组
c = np.ones((2, 2))  # 创建一个2x2的全一数组
d = np.arange(0, 10, 2)  # 从0到10（不包括10），步长为2创建一维数组

2.数组操作：

a.shape  # 获取数组的形状
a.ndim  # 获取数组的维度
a.size  # 获取数组的元素个数
a.dtype  # 获取数组的数据类型
a.reshape((2, 3))  # 改变数组的形状
a.min()  # 返回数组的最小值
a.max()  # 返回数组的最大值
a.sum()  # 返回数组的元素和

3.数组运算：

a + b  # 数组相加（对应元素相加）
a - b  # 数组相减（对应元素相减）
a * b  # 数组相乘（对应元素相乘）
a / b  # 数组相除（对应元素相除）
np.dot(a, b)  # 数组的矩阵乘法
np.sin(a)  # 对数组中的每个元素应用sin函数

安装pandas模块

pip install pandas

可以通过导入pandas模块来使用它

import pandas as pd

1.创建和读取数据：

# 从CSV文件读取数据
df = pd.read_csv('data.csv')
# 从excel文件读取数据
data = pandas.read_excel('1.xlsx')

2.数据处理和操作：

# 查看数据头部和尾部
df.head()  # 默认显示前5行
df.tail(10)  # 显示后10行

# 查看数据统计信息
df.describe()  # 显示数值列的统计信息
df['column'].mean()  # 计算某一列的平均值

# 选择和过滤数据
df['column']  # 选择某一列
df[['column1', 'column2']]  # 选择多列
df[condition]  # 根据条件选择行

# 添加和删除数据
df['new_column'] = values  # 添加新列
df.drop('column', axis=1, inplace=True)  # 删除列

# 数据排序和分组
df.sort_values('column')  # 按列值排序
df.groupby('column').mean()  # 按列分组并计算平均值

# 处理缺失数据
df.dropna()  # 删除包含缺失值的行
df.fillna(value)  # 用指定值填充缺失值

3.数据可视化：

df.plot()  # 绘制折线图
df.plot(kind='bar')  # 绘制柱状图
df.plot(kind='scatter', x='column1', y='column2')  # 绘制散点图

小案例(读取excel中的数据进行分析)

import numpy as np
import pandas as pd

df = pd.read_excel('1.xlsx', sheet_name='Sheet1')
# 在read_excel()函数中，1.xlsx是Excel文件的路径，Sheet1是要读取的工作表的名称。可以根据需要更改这些参数。

df.head()  # 查看数据前几行
df.shape  # 查看数据形状（行数和列数）
df.columns  # 查看列名
df['column']  # 选择某一列
df.describe()  # 查看数据的统计信息

# 使用NumPy的array()函数将数据转换为NumPy数组（如果需要）：
data = np.array(df)

posted @ 2023-08-29 10:25 程序猿小Ma 阅读(145) 评论(0) 收藏举报

刷新页面返回顶部

Loading

程序猿小Ma

numpy和pandas的基本用法

安装numpy模块

可以通过导入numpy模块来使用它

1.创建数组：

2.数组操作：

3.数组运算：

安装pandas模块

可以通过导入pandas模块来使用它

1.创建和读取数据：

2.数据处理和操作：

3.数据可视化：

小案例(读取excel中的数据进行分析)

公告