Python数据分析易错知识点归纳(二):Numpy
二、numpy
不带括号的基本属性
arr.dtype
arr.shape # 返回元组
arr.size
arr.ndim # 维度
arr.reshape/arr.resize/np.resize
- arr.reshape(不同维度size...)有返回值,不会改变原数值;arr.resize((不同维度size...))无返回值,会直接改变原数组;np.resize(arr, (不同维度size...))有返回值,不会改变原数组(注意reshape与resize参数形式的不同,前者是几个参数,后者是一个元组)
- reshape要求前后元素个数一致,否则报错;resize可放大或缩小原数组形状,方大时,用0补充,缩小时,删除多余的。
- 维度size填写时:reshape的不同维度size可以填一个-1,其值可以根据arr.size自动计算;而resize则没有这个特性,但不会报错,当其余维度一样时,-1自动变为其它维度一样;否则-1自动变为1。
'''
numpy.resize 函数返回指定大小的新数组
如果新数组大小大于原始大小,则包含原始数组中的元素的副本
numpy.resize(arr, shape)
shape:返回数组的新形状
'''
a = np.array([[1, 2, 3], [4, 5, 6]])
print('第一个数组:')
print(a)
print('第一个数组的形状:')
print(a.shape)
b = np.resize(a, (3, 2))
print('第二个数组:')
print(b)
print('第一个数组:')
print(a) # 第一个数组不变
print('第二个数组的形状:')
print(b.shape)
a.resize((3, 2))
print('第一个数组改变:')
print(a) # 第一个数组改变
# 注意a的第一行在b中重复出现,因为尺寸变大
print('修改第二个数组的大小:')
b = np.resize(a, (3, 3))
print(b)
# 对比
arr = np.arange(12)
arr1 = arr.reshape(-1, 2, 2) # -1自动计算
print(len(arr1)) # 3
arr2 = np.resize(arr, (2, -1, 2)) # (2, 2, 2)
print(arr2)
'''
[[[0 1]
[2 3]]
[[4 5]
[6 7]]]
'''
arr3 = np.resize(arr, (2, -1, 3)) # (2, 1, 3)
print(arr3)
'''
[[[0 1 2]]
[[3 4 5]]]
'''
np.amin/np.amax
a = np.array([[3, 7, 5], [8, 4, 3], [2, 4, 9]])
print('原数组:')
print(a)
print('调用amin()函数横向最小值:')
print(np.amin(a, 1)) # 与np.min一样
print('再次调用amin()函数纵向最小值:')
print(np.amin(a, 0))
print('调用amax()函数:')
print(np.amax(a)) # 与np.max一样
print('调用amax()函数纵向最大值:')
print(np.amax(a, axis=0))
np.argmax、np.argmin
np.argwhere
indexName = np.argwhere(scoreAll == name)
np.argsort
# numpy.argsort()函数返回的是数组值从小到大的索引值
x = np.array([3, 1, 2])
print('原数组:')
print(x)
print('对x调用argsort()函数:')
y = np.argsort(x)
print(y)
```
对 x 调用 argsort() 函数:
[1 2 0] # 排序后的索引值
```
np.sort
a = np.array([[3, 7], [9, 1]])
print('原数组:')
print(a)
print('调用sort() 函数:')
print(np.sort(a)) # 默认是axis=1
print('按列排序:')
print(np.sort(a, axis=0))
# 在sort函数中排序字段
# 若定义了dtype, 则每个元组视为一个整体,排序时,元组内部不会改变
dt = np.dtype([('name', 'S10'), ('age', int)])
a = np.array([('raju', 21), ('anil', 25), ('ravi', 17), ('amar', 27)], dtype=dt)
print(a)
'''
[(b'raju', 21) (b'anil', 25) (b'ravi', 17) (b'amar', 27)]
'''
print(np.sort(a)) # 若order缺省,按照第一个字段排
'''
[(b'amar', 27) (b'anil', 25) (b'raju', 21) (b'ravi', 17)]
'''
print(np.sort(a, order='age'))
'''
[(b'ravi', 17) (b'raju', 21) (b'anil', 25) (b'amar', 27)]
'''
# 不同之处
# 由于没有定义dtype, numpy会将所有的元素都转换为字符串, 元组也会转为列表
a = np.array([('raju', 21), ('anil', 25), ('ravi', 17), ('amar', 27)])
print(a)
'''
[['raju' '21']
['anil' '25']
['ravi' '17']
['amar' '27']]
'''
print(np.sort(a))
'''
[['21' 'raju']
['25' 'anil']
['17' 'ravi']
['27' 'amar']]
'''
np.cumsum
arr = np.arange(6).reshape(2, 3)
print(arr)
'''
[[0 1 2]
[3 4 5]]
'''
print(np.cumsum(arr)) # 先展开,再累计求和
'''
[ 0 1 3 6 10 15]
'''
print(np.cumsum(arr, axis=0))
'''
[[0 1 2]
[3 5 7]]
'''
print(np.cumsum(arr, axis=1))
'''
[[ 0 1 3]
[ 3 7 12]]
'''
np.append
a = np.array([[1, 2, 3], [4, 5, 6]])
print(a)
print('向数组添加元素:')
print(np.append(a, [7, 8, 9]))
print('沿轴0添加元素:')
print(np.append(a, [[7, 8, 9]], axis=0))
print('沿轴1添加元素:')
print(np.append(a, [[5, 5, 5], [6, 6, 6]], axis=1))
'''
[[1 2 3]
[4 5 6]]
向数组添加元素:
[1 2 3 4 5 6 7 8 9]
沿轴0添加元素:
[[1 2 3]
[4 5 6]
[7 8 9]]
沿轴1添加元素:
[[1 2 3 5 5 5]
[4 5 6 6 6 6]]
'''
np.insert
a = np.array([[1, 2], [3, 4], [5, 6]])
print('第一个数组:')
print(a)
print('未传递Axis参数。在插入之前输入数组会被展开。')
print(np.insert(a, 3, [11, 12]))
print('传递Axis参数。会广播值数组来配输入数组。')
print('沿轴0广播插入第2行:')
print(np.insert(a, 1, [11, 12], axis=0))
print('沿轴1广播插入第2列:')
print(np.insert(a, 1, 11, axis=1))
'''
第一个数组:
[[1 2]
[3 4]
[5 6]]
未传递Axis参数。在插入之前输入数组会被展开。
[ 1 2 3 11 12 4 5 6]
传递Axis参数。会广播值数组来配输入数组。
沿轴0广播插入第2行:
[[ 1 2]
[11 12]
[ 3 4]
[ 5 6]]
沿轴1广播插入第2列:
[[ 1 11 2]
[ 3 11 4]
[ 5 11 6]]
'''
np.delete
a = np.arange(12).reshape(3, 4)
print('第一个数组:')
print(a)
print('未传递Axis参数。在插入之前输入数组会被展开。')
print(np.delete(a, 5))
print('删除第二列:')
print(np.delete(a, 1, axis=1))
print('删除后a:')
print(a)
print('包含从数组中删除的替代值的切片:')
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print(np.delete(a, np.s_[::3]))
'''
第一个数组:
[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
未传递Axis参数。在插入之前输入数组会被展开。
[ 0 1 2 3 4 6 7 8 9 10 11]
删除第二列:
[[ 0 2 3]
[ 4 6 7]
[ 8 10 11]]
包含从数组中删除的替代值的切片:
[2 3 5 6 8 9]
'''
np.unique
去重并排序
a = np.array([5, 2, 6, 2, 7, 5, 6, 8, 2, 9])
print('第一个数组:')
print(a)
print('第一个数组的去重值:') # 去重并排序
u = np.unique(a)
print(u)
print('新列表元素在旧列表中的位置下标:')
u,indices = np.unique(a, return_index=True)
print(indices)
print('可以看到每个和原数组下标对应的数值:')
print(a)
print('去重数组的下标:')
u,indices = np.unique(a, return_inverse=True)
print(u)
np.extract
x = np.arange(100).reshape(10, 10)
cond = np.mod(x, 2) != 0
print(np.extract(cond, x)) # 抽取后展开
'''
[ 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47
49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95
97 99]
'''
np.intersect1d
x = np.array([1, 1, 2, 5, 4])
y = np.array([2, 1, 4, 5])
xy, x_ind, y_ind = np.intersect1d(x, y, return_indices=True)
print(xy) # [1 2 4 5]
print(x_ind) # [0 2 4 3]
print(y_ind) # [1 0 2 3]
切片和布尔过滤
arr = np.arange(15).reshape(3, 5)
arr1 = arr[:, 1:2] # 也可以写成arr[..., 1:2]
'''
[[ 1]
[ 6]
[11]]
'''
arr2 = arr[1:, 2:]
'''
[[ 7 8 9]
[12 13 14]]
'''
arr3 = arr[[0, 0, 2, 2], [1, 3, 1, 3]]
'''
[ 1 3 11 13]
'''
arr4 = arr[(arr >= 5) & (arr <= 10)] # 会展开
'''
[ 5 6 7 8 9 10]
'''
arr5 = arr[(arr < 5) | (arr > 10)]
'''
[ 0 1 2 3 4 11 12 13 14]
'''
# 注意Numpy布尔过滤与DataFrame的区别
x=np.arange(1,10,1).reshape([3,3])
print(x>4)
'''
[[False False False]
[False True True]
[ True True True]]
'''
print(x[x>4]) # 注意这里与DataFrame的区别:DataFrame是形状不变,不满足的值为NaN
'''
[5 6 7 8 9]
'''
# 利用np.where进行布尔过滤
arr = np.arange(10)
print(arr[np.where(~(arr % 2 == 0))]) # [1 3 5 7 9]
np.random
- 生成均匀分布的随机数
- np.random.rand(size) 范围[0,1) size: 如 2; 如2, 3
- np.random.randint(low, high, size) 指定范围[low, hight)的随机整数 size如 2; 如(2, 3)
- np.random.uniform(low, high, size) 指定范围[low, hight)(默认[0,1))随机均匀分布 size如 2; 如(2, 3)
- 生成正态分布随机数
- np.random.randn(size) 标准正态分布(均值为0,方差为1) size: 如 2; 如2, 3
- np.random.normal(loc,scale,size) 指定均值loc和方差scale的一般正态分布
np.around
print(np.around(a, decimals=1)) # 保留一位小数四舍五入 # python基本方法是round
print(np.around(a, decimals=-1)) # 整数个位数四舍五入 -2为十位数 -3为百位数
loadtxt()
data = np.loadtxt('iris_data.csv') # 默认分隔符为空格
God will send the rain when you are ready.You need to prepare your field to receive it.