Pandas学习之路【1】

安装pandas:

1
pip install pandas

  

pandas读取数据:

数据类型读取方式
csv, tsv, txt pd.read_csv
Excel pd.read_excel
mysql pd.read_sql

 

1.读取csv文件数据

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import pandas as pd
 
# 文件路径
path = 'C:\\Users\\zhang\\Desktop\\ant-learn-pandas-master\\datas\\titanic\\titanic_test.csv'
 
# 读取数据
ratings = pd.read_csv(path)
 
# 查看数据的形状, (行数,列数)
ratings.shape
 
# 查看列名
ratings.columns
 
# 查看每一列的数据类型
ratings.dtypes
 
# 查看索引列
ratings.index
 
# 查看前几行数据
ratings.head()

  

2.读取txt文件【需要自己指定列的分隔符, 自己定义列名】

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
path = 'C:\\Users\\zhang\\Desktop\\ant-learn-pandas-master\\mydata.txt'
 
 
# 参数解释:
# path:路径
# sep:分隔符
# header=None,文件中没有表头
# names:读取数据后自己定义的表头 字段名
 
pvnv = pd.read_csv(
    path,
    sep='\t',
    header=None,
    names=['pdate', 'pv', 'nv']
)

  

3.读取Excel文件数据

1
2
3
path = 'C:\\Users\\zhang\\Desktop\\ant-learn-pandas-master\\39. pdf_chinese_english.xlsx'
 
pvuv = pd.read_excel(path)

  

4.读取MySQL数据库的表数据

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 创建数据库连接
import pymysql
 
conn = pymysql.connect(
        host = '127.0.0.1',
        user = 'root',
        password = '123456',
        database = 'testdb',
        chartset = 'utf8'
)
 
 
# 读取mytb表的数据
mysql_data = pd.read_sql('select * from mytb', con = conn)

  

5.pandas的数据结构【DataFrame, Series

DataFrame:整个表格数据,二维数据

Series:一行或一列,一维数据

  创建series的三种方式:

方式一:根据列表创建一个简单的series

1
2
3
4
5
6
7
8
# 创建一个series s1
s1 = pd.Series([1, 'a', 2.5, 7])
 
# 获取s1的索引
s1.index
 
# 获取s1的数据
s1.values

  

方式二:创建一个具有标签索引的series【不再使用默认的数字作为索引,而是使用自定义的标签作为索引】

1
2
3
4
5
6
7
s2 = pd.Series([1, 'a', 2.5, 7], index=['a', 'b', 'c', 'd'])
 
# 获取s2的索引
s2.index
 
# 获取s2的数据
s2.values

  

方式三:使用字典创建一个series

1
2
3
4
5
6
7
8
9
sdata = {'a': 100, 'b': 200, 'c': 300, 'd': 400}
 
s3 = pd.Series(sdata)
 
# 获取s3的索引【sdata中的keys】
s3.index
 
# 获取s3的数据【sdata中的values】
s3.values

  

  查询Series的数据:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 查看全部
print(s3)
 
# 查看某一个索引的值
s3['a']
 
# 查看数据类型
type(s3['a'])
 
# 查看多个值
s3[['a', 'b']]
 
# 查看类型
type(s3[['a', 'b']])

  

DataFrame ** 结构【表格类型】:

使用字典创建一个DataFrame:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
data = {
    'state': [1,2,3,4,5,6],
    'year': [1,2,3,4,5,6],
    'pop': [1,2,3,4,5,6]
}
 
df = pd.DataFrame(data)    # 创建后的表格为:6行3列
 
# 查看类型
df.dtypes
 
# 查看列名
df.columns
 
# 查看索引
df.index

  

从DataFrame中查询Series:

  • 如果是查询一行、一列,返回的是pd.Series

  • 如果是查询多行、多列,返回的是pd.DataFrame

1
2
3
4
5
6
7
8
9
# 查询一列
df['year']
 
type(df['year'])  # 返回的是pd.Series类型
 
# 查询多列
df[['year', 'pop']]
 
type(df[['year', 'pop']])  # 返回的是pd.DataFrame类型

  

1
2
3
4
5
6
7
8
9
10
11
# 查询一行
# 查询index=1的一行
df.loc[1]
 
type(df.loc[1])  # 返回的是pd.Series类型
 
# 查询多行
# 查询:第1行-第3行
df.loc[1:3]
 
type(df.loc[1:3])  # 返回的是pd.DataFrame类型

  

posted @   映辉  阅读(7)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示