(零)机器学习入门与经典算法之numpy的基本操作
1.根据索引来获取元素
* 创建一个索引列表ind,用来装载索引,
当numpy数据是一维数据时:一个索引对应的是一个元素
具体的例子如下:
import numpy as np # 数据是一维数据时:索引对应的是一个元素 x = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160]) ind1 = [3, 5, 9] print("根据一维索引获取对应元素的值,生成一维的numpy数据:", x[ind1], x[ind1].shape) ind2 = np.array([[0, 2], [1, 3]]) print("根据二维索引获取对应元素的值,生成二维的numpy数据", x[ind2], x[ind2].shape) ind3 = np.array([[0, 1], [2, 3], [4, 5]]) print("根据三维索引获取对应元素的值,生成三维的numpy数据", x[ind3], x[ind3].shape)
* 当numpy数据是多维数据时:一个索引对应的是一行元素,可以通过两个索引来获取第a行,第b列的元素
* 对于一个m*n维的数据,可以通过reshape来改变它的形状,变成i * j维。其中m * n = i * j
import numpy as np # 数据是多维数据时:【1】【3】对应的是第一行,第三列的数据 x = x.reshape(4, -1) # 将数据变成4行,-1表示任意列,自动计算 row = np.array([[0, 1, 2]]) # 表示只获取第0,1,2行 print(x[row]) col = [0, 1, 2] print("取第row行,第col列", x[row, col]) # 表示获取第(0,0),(1,1),(2,2)的数据 print(x[:2, col]) col2 = [True, False, True, True] # 表示除了第二列之外,其他的都是True,也就是说在取值时,不取false的 print(x[0:2, col2]) # numpy中用于统计的方法: # 统计 x < 30的个数 print('统计 x < 30的个数', np.count_nonzero(x < 30)) # np.any 只要有一个满足后面的条件就会返回True # np.all() 所有元素满足后面的条件就会返回True print(np.any(x == 50)) print(np.all(x == 50)) # np.sum统计x%25==0的个数,其中axis=0表示按列看,axis=1表示按行看 print(np.sum(x % 25 == 0, axis=1)) # 创建其他array数据的方法: # 其他创建array的方法 a = np.zeros(10, dtype=int) print(a) b = np.zeros(shape=(3, 5), dtype=float) print(b) c = a.reshape(2, 5) print(c) d = np.ones(shape=(3, 5), dtype=int) # 如果要生成一个指定数字的数组 e = np.full(shape=(3, 5), fill_value=222, dtype=float) print(e) # 生成一个0-10里,间隔为0.2的array f = np.arange(0, 10, 0.2) print(f) # linspace(),将0-20划分十个等距的数值 g = np.linspace(0, 20, 10) print(g) # random, size表示生成的形状,size=(3, 5)表示3行5列 number = np.random.randint(0, 10, size=10) number2 = np.random.randint(0, 10, size=(3, 5)) print(number2) # 计算机中的生成随机数机器都是伪随机数,是根据生成随机数的算法来执行生成的 # 如果生成种子一样的话,那么那你执行多少次结果都是一样的 np.random.seed(223) number4 = np.random.randint(0, 10, size=4) print(number4) # 生成浮点数的随机数size可以是一个整数,也可以是一个元祖 num = np.random.random(size=(3, 5)) print(num) # 生成服从正态分布的随机数0是均值,1是方差 number5 = np.random.normal(0, 1, size=(3, 5)) print(number5)
### 2.numpy的基本操作
* 主要包含对数据进行reshape,合并操作,分割操作
先讲一下一些基本知识,便于理解代码。
* 假设x是一个一维的数据,里面有100个元素,通过x.reshape(10,-1),则它会将数据变成10行,-1表示不用管它,让计算机自己计算有多少列,例如这里生成100/10=10列,==在这里要注意,我们总元素/行数=整数,才行。==
例如有100个数据,想要x = x.reshape(3,-1)是不行的,因为100/3 != 整数
* 例如x= np.array([1,1,1],[2,2,2]),
x=x[:,:]表示取所有行所有列,冒号表示取所有
import numpy as np x = np.arange(15).reshape(3, 5) print(x) # 获取数组中的某个元素 number = x[2, 3] print(number) # 若果向获取某一行或者某一列 number2 = x[:2] print(number2) number3 = x[:, :3] print(number3) # 获取步长为2的元素 number4 = x[:, ::2 ] print(number4) # 如果你去x的一个子集,然后对子集修改,原来的集合也会被修改 # 如果我们想获取一个独立的子集 subx = x[:2, :3].copy() # 如果想讲一个数据修改成15行,列不管 # 如果有100条数据,则变成5行20列 num = x.reshape(5, -1) print(num)
* 合并操作
# 合并操作 x = np.array([1, 2, 3]) y = np.array([3, 2, 1]) a = np.concatenate([x, y]) print(a) z = np.array([[0, 0, 0], [1, 1, 1]]) q = np.full(shape=(2, 2), fill_value=100) b = np.vstack([x, z]) # 在垂直方向叠加 print(b) c = np.hstack([z, q]) # 在水平方向叠加 print(c)
* 分割操作
# 分割操作 x = np.arange(10) # 3和7是分割的地方 x1, x2, x3 = np.split(x, [3, 7]) print(x1, x2, x3) y2 = np.arange(16).reshape(4, 4) # axis=0按行分割 v1, v2 = np.split(y2, [2], axis=0) upper, lower = np.vsplit(y2, [2]) # np.vsplit上下对称, np.hsplit左右对称 print(upper)
### 3.矩阵的操作
import numpy as np # numpy对数组支持加减乘除,幂运算,求余 # 对矩阵里面的每个元素乘以2 l = np.arange(20) a = 2 * l print(a) # 对矩阵 """求绝对值abs 正弦sin,余弦cos,正切tan 在numpy中log函数默认以e为底 log2(x)""" print(np.log(2.7)) matrix_a = np.arange(4).reshape(2, 2) matrix_b = np.full(shape=(2, 2), fill_value=10) print(matrix_a * matrix_b) # 对应位置的元素相乘,但这并不符合数学上的矩阵的乘法 print(matrix_a.dot(matrix_b)) # 这个才符合矩阵的乘法 matrix_c = np.arange(6).reshape(2, 3) print(matrix_a.dot(matrix_c)) # 向量和矩阵做加法 v = np.array([1, 2]) print(v + matrix_a) # 矩阵求逆 inv_a = np.linalg.inv(matrix_a) print(inv_a) # 有一些矩阵不能求逆矩阵,所以我们求伪逆矩阵 pinx = np.linalg.pinv(matrix_a) print(pinx)
### 4.聚合操作
import numpy as np a = np.arange(100) # 求和 print(np.sum(a)) # sum与python中的sum在效率上快很多 print(np.max(a)) x = np.arange(16).reshape(4, 4) print(np.sum(x, axis=0)) # 平均值 print(np.mean(x)) # 中位数 print(np.median(x)) # 所有元素的乘积 print(np.prod(x)) # 方差 print(np.std(x))
### 5. 获取索引的值
import numpy as np x = np.random.normal(0, 1, size=10000) print(np.argmin(x)) # 获取最小值的索引值,通过x[索引】可以查找元素 # 排序和索引 y = np.array([1, 5, 6, 8, 8, 2, 3, 9, 11]) print(np.sort(y, axis=0)) # 通过这样y不会改变顺序,如果想要改变y的话,可以用y.sort() z = np.arange(5) np.random.shuffle(z) # 打乱原来的排序 print(z) print("输出的是0, 1, 2, 3, 4的索引", np.argsort(z)) # 支出最小值到最大值在z中的索引