2019 年 1月 25 日随笔档案 - python我的最爱

2019年1月25日

摘要：对于一些标签和特征来说，分布不一定符合正态分布，而在实际的运算过程中则需要数据能够符合正态分布因此我们需要对特征进行log变化，使得数据在一定程度上可以符合正态分布进行log变化，就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0，而不能进行log变化代码：第一步：阅读全文

posted @ 2019-01-25 22:27 python我的最爱阅读(6867) 评论(1) 推荐(1) 编辑

机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分，生成新的特征)

摘要：函数说明: 1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值，这里用来求出4分位出的数值 2. plt.axvline() # 用于画出图形中的竖线 3. pd.qcut(feature, cut_list, labels) 用于对特征进行阅读全文

posted @ 2019-01-25 22:05 python我的最爱阅读(1372) 评论(0) 推荐(2) 编辑

机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)

摘要：函数说明: 1. .hist 对于Dataframe格式的数据，我们可以使用.hist直接画出直方图对于一些像年龄和工资一样的连续数据，我们可以对其进行分段标记处理，使得这些连续的数据变成离散化就好比：我们可以将0-9岁用0表示 10-19用1表示 20-29用2表示 ... 下面我们对一个年龄阅读全文

posted @ 2019-01-25 19:44 python我的最爱阅读(1733) 评论(0) 推荐(0) 编辑

机器学习入门-数值特征-进行多项式变化(将特征投影到高维度上) 1.PolynomialFeatures(将数据变化为多项式特征)

摘要：函数说明： 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项式的变化维度为2，即^2, interaction_only表示是否只使用a*b, include_ 阅读全文

posted @ 2019-01-25 19:13 python我的最爱阅读(2732) 评论(0) 推荐(0) 编辑

机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)

摘要：函数说明： 1. Binarizer(threshold=0.9) 将数据进行二值化，threshold表示大于0.9的数据为1,小于0.9的数据为0 对于一些数值型的特征：存在0还有其他的一些数二值化指的是：将大于0的特征使用1表示，将等于0的特征还是用0表示对于二值化操作：使用两种方法第一阅读全文

posted @ 2019-01-25 18:32 python我的最爱阅读(1374) 评论(0) 推荐(0) 编辑

机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)

摘要： 1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码，输入的参数必须是二维的，因此需要做reshape,同时使用toarray() 转换为列表形式 3 pd 阅读全文

posted @ 2019-01-25 16:30 python我的最爱阅读(1279) 评论(0) 推荐(0) 编辑