python3 pandas

Pandas 教程 | 菜鸟教程 (runoob.com)

1、介绍

Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。

Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

2、Series类

这是一个一维数据对象

3、DataFrame

是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

3.1 初始化

def __init__(
    self,
    data=None,
    index=None,
    dtype: Dtype | None = None,
    name=None,
    copy: bool | None = None,
    fastpath: bool = False,
)
  • data:一组数据(ndarray、series, map, lists, dict 等类型)。

  • index:索引值,或者可以称为行标签。

  • columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。

  • dtype:数据类型。

  • copy:拷贝数据,默认为 False。

3.2 方法

(1)head

def head(self: NDFrameT, n: int = 5) -> NDFrameT:
  • 返回一个DataFrame对象,包括当前DataFrame的前n行,默认是5行

(2)tail

def tail(self: NDFrameT, n: int = 5) -> NDFrameT:
  • 返回一个DataFrame对象,包括当前DataFrame的最后n行,默认是5行

3.3 属性

(1)loc

def loc(self) -> _LocIndexer:

loc[0][0]
loc[0]
  • 指定行,指定列的数据
  • 如果是loc[i],返回的是pandas.core.series.Series类型
  • 如果是loc[i][j],返回的是直接的值,但是类型是numpy限定的类型,比如numpy.int64
  • i还可以是行索引或列索引名称,比如loc[0]['Request']
  • 读取超出范围的索引或者行列名,会报错
  • 行索引不能是负数索引,而列可以

(2)shape

def shape(self) -> tuple[int, int]:
df.shape[0]
  • 返回一个元组,包括行数和列数

4、常用函数

df = pd.read_csv('F:/burp_log/save_csv')
  • read_csv函数读取的就是DataFrame对象

 读取数据:

函数 说明
pd.read_csv(filename) 读取 CSV 文件;
pd.read_excel(filename) 读取 Excel 文件;
pd.read_sql(query, connection_object) 从 SQL 数据库读取数据;
pd.read_json(json_string) 从 JSON 字符串中读取数据;
pd.read_html(url) 从 HTML 页面中读取数据。
posted @ 2023-05-07 14:59  挖洞404  阅读(59)  评论(0编辑  收藏  举报