随笔档案「2019年7月」 - 做梦当财神

摘要：1. 数据源a是数组ndarray时，array仍然会copy出一个副本，占用新的内存，但asarray不会。也就是说改变a的值，b不会。 2. 数据源a是列表时，两者没区别。阅读全文

posted @ 2019-07-29 16:24 做梦当财神阅读(4070) 评论(0) 推荐(0)

摘要：numpy.where (condition[, x, y]) numpy.where()两种用法 1. np.where(condition, x, y) 满足条件(condition)，输出x，不满足输出y。 2. np.where(condition) 只有条件 (condition)，没有x 阅读全文

posted @ 2019-07-25 20:51 做梦当财神阅读(1965) 评论(0) 推荐(1)

np.repeat()

摘要：np.repeat()用于将numpy数组重复。 numpy.repeat(a, repeats, axis=None); 参数： axis=0,沿着y轴复制，实际上增加了行数axis=1,沿着x轴复制，实际上增加了列数 1. 一维数组重复3次 # 随机生成[0, 5)之间的数，形状1行4列，将此数阅读全文

posted @ 2019-07-25 20:36 做梦当财神阅读(11592) 评论(0) 推荐(0)

pandas 中的 reset_index()

摘要：数据清洗时，会将带空值的行删除，此时DataFrame或Series类型的数据不再是连续的索引，可以使用reset_index()重置索引。 import pandas as pd import numpy as np df = pd.DataFrame(np.arange(20).reshape( 阅读全文

posted @ 2019-07-23 09:42 做梦当财神阅读(104159) 评论(1) 推荐(12)

pandas-数据类型转换

摘要：1. Pandas数据类型 pandas做数据处理，经常用到数据转换，得到正确类型的数据。 pandas与numpy之间的数据对应关系。重点介绍object，int64，float64，datetime64，bool等几种类型，category与timedelta两种类型这里不做介绍。 Custo 阅读全文

posted @ 2019-07-21 10:56 做梦当财神阅读(29874) 评论(0) 推荐(0)

Numpy中matrix()和array()的区别

摘要：matrix() 和 array() 的区别，主要从以下方面说起： 1. 矩阵生成方式不同结果均为：上述变化就是将 “[]” 换成“()”。不同之处在于 b4 内用引号、空格和分号来产生矩阵，这个方法只可以在 matrix() 函数中使用，即b4 = np.mat('1 2; 3 4')。不可以阅读全文

posted @ 2019-07-17 15:09 做梦当财神阅读(4019) 评论(0) 推荐(0)

Numpy数据类型转化astype，dtype

摘要：1. 查看数据类型 import numpy as np arr = np.array([1,2,3,4,5]) print(arr) [1 2 3 4 5] # dtype用来查看数据类型 arr.dtype dtype('int32') 2. 转换数据类型 # astype用来转换数据类型 fl 阅读全文

posted @ 2019-07-16 20:26 做梦当财神阅读(9670) 评论(0) 推荐(0)

支持向量机（三）非线性支持向量机与核函数

摘要：支持向量机（一）线性可分支持向量机支持向量机（二）线性支持向量机支持向量机（三）非线性支持向量机与核函数支持向量机（四）SMO算法一、核技巧 1.非线性分类问题如图 \(7.7\)，无法用直线（线性模型）将正实例点 “●”、负实例点 “×” 正确分开，但可用一条椭圆曲线（非线性模型）将其分阅读全文

posted @ 2019-07-16 11:08 做梦当财神阅读(1163) 评论(0) 推荐(0)

np.unique()对一维和二维数组去重

摘要：numpy.unique(ar, return_index=False, return_inverse=False, return_counts=False, axis=None)[source] 一维数组对一维数组或列表，unique()函数去除其中重复元素，并按元素大小返回一个新的无重复元组或阅读全文

posted @ 2019-07-11 11:00 做梦当财神阅读(8618) 评论(0) 推荐(0)

sklearn.feature_extraction.DictVectorizer

摘要：sklearn.feature_extraction.DictVectorizer：将字典组成的列表转换成向量。(将特征与值的映射字典组成的列表转换成向量) 1. 特征矩阵行代表数据，列代表特征，0表示该数据没有该特征 [[ 2. 0. 1.] [ 0. 1. 3.]] [[ 2. 0. 1.] [ 阅读全文

posted @ 2019-07-09 15:44 做梦当财神阅读(994) 评论(0) 推荐(1)

Python 解决数据样本类别分布不均衡问题

摘要：所谓不平衡指的是：不同类别的样本数量差异非常大。数据规模上可以分为大数据分布不均衡和小数据分布不均衡。大数据分布不均衡：例如拥有1000万条记录的数据集中，其中占比50万条的少数分类样本便于属于这种情况。小数据分布不均衡：例如拥有1000条数据样本的数据集中，其中占有10条的少数分类样本便于属于这阅读全文

posted @ 2019-07-08 21:42 做梦当财神阅读(8385) 评论(0) 推荐(1)

pandas分组运算（groupby）

摘要：1. groupby() 2. 聚合方法size()和count() size跟count的区别： size计数时包含NaN值，而count不包含NaN值 count() size() 来自：https://blog.csdn.net/m0_37870649/article/details/8097 阅读全文

posted @ 2019-07-08 19:59 做梦当财神阅读(12592) 评论(0) 推荐(0)

支持向量机（二）线性支持向量机

摘要：支持向量机（一）线性可分支持向量机支持向量机（二）线性支持向量机支持向量机（三）非线性支持向量机与核函数支持向量机（四）SMO算法一、线性支持向量机线性可分支持向量机对线性不可分数据不适用，因为这时的不等式约束不成立。需要修改硬间隔最大化为软间隔最大化。线性不可分意味某些样本点 \((x 阅读全文

posted @ 2019-07-05 20:58 做梦当财神阅读(617) 评论(0) 推荐(0)

做梦当财神

07 2019 档案

公告