3) Series的基本概念
可以把Series看成一个定长的有序字典
可以通过shape, size, index,values等得到series的属性
可以使用head(),tail()分别查看前n个和后n个值
当索引没有对应的值时,可能出现缺失数据显示NaN (not a number )的情况
可以使用pd.isnull(), pd.notnull() ,或自带isnull(),notnull()函数检测缺失数据
使用bool型的列表访问数组对象
Series对象本身及其实例都有一个name属性
根据值排序
根据索引排序
统计值出现的次数
----------------------------------------------------------------------------------------------------------------------------------------------
可以通过shape, size, index,values等得到series的属性
import numpy as np import pandas as pd from pandas import Series, DataFrame import matplotlib as mpl s_score=Series(data=[150,150,150,300],index=["语文","数学","英语","理综"]) s_score
语文 150 数学 150 英语 150 理综 300 dtype: int64
s_score.shape
(4,)
s_score.size
#运行输出 4
#获取显示索引 #Series(data,index) s_score.index
Index(['语文', '数学', '英语', '理综'], dtype='object')
s_score.values
array([150, 150, 150, 300], dtype=int64)
#应用方式举例
#查找由没有语文 (s_score.index=="语文").any()
True
s_score2 =Series (data=np. random.randint(0,150,size=4), index=s_score.index) s_score2
语文 52 数学 74 英语 39 理综 68 dtype: int32
可以使用head(),tail()分别查看前n个和后n个值
#是切片操作,但一般用于查看数据结构 #可以使用head(),tail()分别查看前n个和后n个值 s_score2.head(2)
语文 52 数学 74 dtype: int32
#可以使用head(),tail()分别查看前n个和后n个值 s_score2.tail(2)
英语 39 理综 68 dtype: int32
当索引没有对应的值时,可能出现缺失数据显示NaN (not a number )的情况
#当没有对应值时显示 NaN,表示空值 dic ={"name":"tom", "address":"北京"} s=Series (data=dic, index=["name", "address", "oldname"]) s
name tom
address 北京
oldname NaN
dtype: object
可以使用pd.isnull(), pd.notnull() ,或自带isnull(),notnull()函数检测缺失数据
#查看大量的数据集中是否存在至少一个空值 s.isnull().any()
True
#查看大量的数据查看是否全部不为空 s.notnull().all()
False
#Series对象本身及其实例都有一个name属性
#Series的#Name属性,往往会成为二维表格中的列字段名称 Series(data=np. random. randint (0, 100, size=5), name="score")
0 63
1 64
2 43
3 82
4 17
Name: score, dtype: int32
根据值排序
score = Series (data=np. random. randint (0, 100, size=5), index=list ("bcade"), name=" score") score
0 2
1 70
2 14
3 92
4 18
Name: score, dtype: int32
#根据值排序 score. sort_values (ascending=False)
d 85 c 70 e 69 a 41 b 6 Name: score, dtype: int32
#根据索引排序
#根据索引排序 score.sort_index()
a 41 b 6 c 70 d 85 e 69 Name: score, dtype: int32
#统计值出现的次数
#统计每个用户的个数 user_name = Series (data=["tom", "tom", "tom", "lucy", "lucy"]) user_name. value_counts ()
tom 3 lucy 2 dtype: int64