浅析Python数据处理

Numpy、Pandas是Python数据处理中经常用到的两个框架，都是采用C语言编写，所以运算速度快。Matplotlib是Python的的画图工具，可以把之前处理后的数据通过图像绘制出来。之前只是看过语法，没有系统学习总结过，本博文总结了这三个框架的API。

以下是这三个框架的的简单介绍和区别：

Numpy：经常用于数据生成和一些运算
Pandas：基于Numpy构建的，是Numpy的升级版本
Matplotlib：Python中强大的绘图工具

Numpy

Numpy快速入门教程可参考：Numpy tutorial

Numpy属性

ndarray.ndim：维度

ndarray.shape：行数和列数，例如(3, 5)

ndarray.size：元素的个数

ndarray.dtype：元素类型

Numpy创建

array(object, dtype=None)：使用Python的list或者tuple创建数据

zeors(shape, dtype=float)：创建全为0的数据

ones(shape, dtype=None)：创建全为1的数据

empty(shape, dtype=float)：创建没有初始化的数据

arange([start, ]stop, [step, ]dtype=None)：创建固定间隔的数据段

linspace(start, stop, num=50, dtype=None)：在给定的范围，均匀的创建数据

Numpy运算

加、减：a + b、a - b

乘：b*2、10*np.sin(a)

次方：b**2

判断：a<35，输出True或False的数组

矩阵乘：np.dot(A,B) 或 A.dot(B)

其他：+=、-+、sin、cos、exp

Numpy索引

数组索引方式：A[1, 1]

切片：A[1, 1:3]

迭代：for item in A.flat

Numpy其他

reshape(a, newshape)：改变数据形状，不会对原始数据进行修改，返回一组新数据

resize(a, new_shape)：改变数据形状，会对原始数据进行修改，不返回数据

ravel(a)：将成一维返回

vstack(tup)：上下合并

hstack(tup)：左右合并

hsplit(ary, indices_or_sections)：水平分割n份

vsplit(ary, indices_or_sections)：垂直分割n份

copy(a)：深度拷贝

Pandas

Pandas快速入门教程可参考：10 Minutes to pandas

Pandas数据结构

Pandas的数据结构有两种：Series和DataFrame。

Series：索引在左边，值在右边。创建方式如下：

In [4]: s = pd.Series([1,3,5,np.nan,6,8])
In [5]: s
Out[5]: 
0  1.0
1  3.0
2  5.0
3  NaN
4  6.0
5  8.0
dtype: float64

DataFrame：是一个表格型的数据结构，既有行索引也有列索引，它可以被看做由Series组成的大字典。创建方式如下：

In [6]: dates = pd.date_range('20130101', periods=6)

In [7]: dates
Out[7]: 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
        '2013-01-05', '2013-01-06'],
       dtype='datetime64[ns]', freq='D')

In [8]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

Pandas查看数据

index：索引

columns：列索引

values：值

head(n=5)：返回前n项数据

tail(n=5)：返回后n项数据

describe()：打印出数据的数量、平均值等各项数据

sort_index(axis=1, ascending=False)：根据索引排序

sort_values(by='B')：根据索引值排序

Pandas选择数据

数组选择方式：df[‘A']

切片选择方式：df[0:3] 或 df[‘20130102':'20130104']

根据标签选择：df.loc[‘20130102':'20130104',[‘A','B']]

根据位置选择：df.iloc[3:5,0:2]

混合选择：df.ix[:3,[‘A','C']]

条件判断选择：df[df.A > 0]

Pandas处理丢失数据

删除丢失数据的行：df.dropna(how='any')

填充丢失数据：df.fillna(value=5)

数据值是否为NaN：pd.isna(df1)

Pandas合并数据

pd.concat([df1, df2, df3], axis=0)：合并df

pd.merge(left, right, on='key')：根据key字段合并

df.append(s, ignore_index=True)：添加数据

Pandas导入导出

df.to_csv(‘foo.csv')：保存到csv文件

pd.read_csv(‘foo.csv')：从csv文件读取

df.to_excel(‘foo.xlsx', sheet_name='Sheet1')：保存到excel文件

pd.read_excel(‘foo.xlsx', ‘Sheet1', index_col=None, na_values=[‘NA'])：从excel文件读取

Matplotlib

这里只介绍最简单的出图方式：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
# 为了方便观看效果, 我们累加这个数据
data.cumsum()
# pandas 数据可以直接观看其可视化形式
data.plot()
plt.show()

浅析Python数据处理-互联网的那些事儿 | 聚焦互联网前沿，行业爆料、小道消息、内幕挖掘，关注互联网热点！ (886321.xyz)

posted @ 2023-07-20 06:48 半抹灯芯阅读(23) 评论(0) 收藏举报

刷新页面返回顶部

半抹灯芯

人人都向齐博献出一点爱齐博将走的更远！

半抹灯芯

齐博x1我的最爱齐博x3 齐博x4 齐博x5 齐博x2 齐博cms 齐博软件加油！

浅析Python数据处理

公告

半抹灯芯

人人都向齐博献出一点爱 齐博将走的更远！

半抹灯芯

齐博x1我的最爱 齐博x3 齐博x4 齐博x5 齐博x2 齐博cms 齐博软件加油！

浅析Python数据处理

公告

人人都向齐博献出一点爱齐博将走的更远！

齐博x1我的最爱齐博x3 齐博x4 齐博x5 齐博x2 齐博cms 齐博软件加油！