摘要:
有两种类型的转换是可用的:分位数转换和幂函数转换。分位数和幂变换都基于特征的单调变换,从而保持了每个特征值的秩。 通过执行秩变换,分位数变换平滑了异常分布,并且比缩放方法受异常值的影响更小。但是它的确使特征间及特征内的关联和距离失真了。 幂变换则是一组参数变换,其目的是将数据从任意分布映射到接近高斯 阅读全文
posted @ 2021-06-19 17:14
秋华
阅读(3285)
评论(0)
推荐(0)
摘要:
在机器学习中,想要将一个已有的 Python 函数转化为一个转换器来协助数据清理或处理。可以使用 FunctionTransformer 从任意函数中实现一个转换器。例如,在一个管道中构建一个实现日志转换的转化器,这样做: >>> import numpy as np >>> from sklear 阅读全文
posted @ 2021-06-19 16:48
秋华
阅读(721)
评论(0)
推荐(0)
摘要:
特征二值化 是 将数值特征用阈值过滤得到布尔值 的过程。这对于下游的概率型模型是有用的,它们假设输入数据是多值 伯努利分布(Bernoulli distribution) 。例如这个示例 sklearn.neural_network.BernoulliRBM 。 即使归一化计数(又名术语频率)和TF 阅读全文
posted @ 2021-06-19 16:45
秋华
阅读(562)
评论(0)
推荐(0)
摘要:
离散化 (Discretization) (有些时候叫 量化(quantization) 或 装箱(binning)) 提供了将连续特征划分为离散特征值的方法。 某些具有连续特征的数据集会受益于离散化,因为 离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的 阅读全文
posted @ 2021-06-19 16:35
秋华
阅读(2804)
评论(0)
推荐(0)
摘要:
The preprocessing module provides the StandardScaler utility class, which is a quick and easy way to perform the following operation on an array-like 阅读全文
posted @ 2021-06-19 15:37
秋华
阅读(633)
评论(0)
推荐(0)
摘要:
来源:https://www.cntofu.com/book/170/docs/59.md 1 将特征缩放至特定范围内 一种标准化是将特征缩放到给定的最小值和最大值之间,通常在零和一之间,或者也可以将每个特征的最大绝对值转换至单位大小。可以分别使用 MinMaxScaler 和 MaxAbsScal 阅读全文
posted @ 2021-06-19 15:13
秋华
阅读(2213)
评论(0)
推荐(0)