安装numpy模块
pip install numpy
可以通过导入numpy模块来使用它
import numpy as np
1.创建数组:
a = np.array([1, 2, 3, 4, 5]) # 从列表创建一维数组
b = np.zeros((3, 3)) # 创建一个3x3的全零数组
c = np.ones((2, 2)) # 创建一个2x2的全一数组
d = np.arange(0, 10, 2) # 从0到10(不包括10),步长为2创建一维数组
2.数组操作:
a.shape # 获取数组的形状
a.ndim # 获取数组的维度
a.size # 获取数组的元素个数
a.dtype # 获取数组的数据类型
a.reshape((2, 3)) # 改变数组的形状
a.min() # 返回数组的最小值
a.max() # 返回数组的最大值
a.sum() # 返回数组的元素和
3.数组运算:
a + b # 数组相加(对应元素相加)
a - b # 数组相减(对应元素相减)
a * b # 数组相乘(对应元素相乘)
a / b # 数组相除(对应元素相除)
np.dot(a, b) # 数组的矩阵乘法
np.sin(a) # 对数组中的每个元素应用sin函数
安装pandas模块
pip install pandas
可以通过导入pandas模块来使用它
import pandas as pd
1.创建和读取数据:
# 从CSV文件读取数据
df = pd.read_csv('data.csv')
# 从excel文件读取数据
data = pandas.read_excel('1.xlsx')
2.数据处理和操作:
# 查看数据头部和尾部
df.head() # 默认显示前5行
df.tail(10) # 显示后10行
# 查看数据统计信息
df.describe() # 显示数值列的统计信息
df['column'].mean() # 计算某一列的平均值
# 选择和过滤数据
df['column'] # 选择某一列
df[['column1', 'column2']] # 选择多列
df[condition] # 根据条件选择行
# 添加和删除数据
df['new_column'] = values # 添加新列
df.drop('column', axis=1, inplace=True) # 删除列
# 数据排序和分组
df.sort_values('column') # 按列值排序
df.groupby('column').mean() # 按列分组并计算平均值
# 处理缺失数据
df.dropna() # 删除包含缺失值的行
df.fillna(value) # 用指定值填充缺失值
3.数据可视化:
df.plot() # 绘制折线图
df.plot(kind='bar') # 绘制柱状图
df.plot(kind='scatter', x='column1', y='column2') # 绘制散点图
小案例(读取excel中的数据进行分析)
import numpy as np
import pandas as pd
df = pd.read_excel('1.xlsx', sheet_name='Sheet1')
# 在read_excel()函数中,1.xlsx是Excel文件的路径,Sheet1是要读取的工作表的名称。可以根据需要更改这些参数。
df.head() # 查看数据前几行
df.shape # 查看数据形状(行数和列数)
df.columns # 查看列名
df['column'] # 选择某一列
df.describe() # 查看数据的统计信息
# 使用NumPy的array()函数将数据转换为NumPy数组(如果需要):
data = np.array(df)