07 2019 档案
摘要:1. 数据源a是数组ndarray时,array仍然会copy出一个副本,占用新的内存,但asarray不会。也就是说改变a的值,b不会。 2. 数据源a是列表时,两者没区别。
阅读全文
摘要:numpy.where (condition[, x, y]) numpy.where()两种用法 1. np.where(condition, x, y) 满足条件(condition),输出x,不满足输出y。 2. np.where(condition) 只有条件 (condition),没有x
阅读全文
摘要:np.repeat()用于将numpy数组重复。 numpy.repeat(a, repeats, axis=None); 参数: axis=0,沿着y轴复制,实际上增加了行数axis=1,沿着x轴复制,实际上增加了列数 1. 一维数组重复3次 # 随机生成[0, 5)之间的数,形状1行4列,将此数
阅读全文
摘要:数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。 import pandas as pd import numpy as np df = pd.DataFrame(np.arange(20).reshape(
阅读全文
摘要:1. Pandas数据类型 pandas做数据处理,经常用到数据转换,得到正确类型的数据。 pandas与numpy之间的数据对应关系。 重点介绍object,int64,float64,datetime64,bool等几种类型,category与timedelta两种类型这里不做介绍。 Custo
阅读全文
摘要:matrix() 和 array() 的区别,主要从以下方面说起: 1. 矩阵生成方式不同 结果均为: 上述变化就是将 “[]” 换成“()”。不同之处在于 b4 内用引号、空格和分号来产生矩阵,这个方法只可以在 matrix() 函数中使用,即b4 = np.mat('1 2; 3 4')。不可以
阅读全文
摘要:1. 查看数据类型 import numpy as np arr = np.array([1,2,3,4,5]) print(arr) [1 2 3 4 5] # dtype用来查看数据类型 arr.dtype dtype('int32') 2. 转换数据类型 # astype用来转换数据类型 fl
阅读全文
摘要:支持向量机(一)线性可分支持向量机 支持向量机(二)线性支持向量机 支持向量机(三)非线性支持向量机与核函数 支持向量机(四)SMO算法 一、核技巧 1.非线性分类问题 如图 ,无法用直线(线性模型)将正实例点 “●”、负实例点 “×” 正确分开,但可用一条椭圆曲线(非线性模型)将其分
阅读全文
摘要:numpy.unique(ar, return_index=False, return_inverse=False, return_counts=False, axis=None)[source] 一维数组 对一维数组或列表,unique()函数去除其中重复元素,并按元素大小返回一个新的无重复元组或
阅读全文
摘要:sklearn.feature_extraction.DictVectorizer:将字典组成的列表转换成向量。(将特征与值的映射字典组成的列表转换成向量) 1. 特征矩阵行代表数据,列代表特征,0表示该数据没有该特征 [[ 2. 0. 1.] [ 0. 1. 3.]] [[ 2. 0. 1.] [
阅读全文
摘要:所谓不平衡指的是:不同类别的样本数量差异非常大。 数据规模上可以分为大数据分布不均衡和小数据分布不均衡。大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种情况。小数据分布不均衡:例如拥有1000条数据样本的数据集中,其中占有10条的少数分类样本便于属于这
阅读全文
摘要:1. groupby() 2. 聚合方法size()和count() size跟count的区别: size计数时包含NaN值,而count不包含NaN值 count() size() 来自:https://blog.csdn.net/m0_37870649/article/details/8097
阅读全文
摘要:支持向量机(一)线性可分支持向量机 支持向量机(二)线性支持向量机 支持向量机(三)非线性支持向量机与核函数 支持向量机(四)SMO算法 一、线性支持向量机 线性可分支持向量机对线性不可分数据不适用,因为这时的不等式约束不成立。需要修改硬间隔最大化为软间隔最大化。 线性不可分意味某些样本点 \((x
阅读全文