虚拟变量陷阱（Dummy Variable Trap）

虚拟变量陷阱（Dummy Variable Trap）：指当原特征有m个类别时，如果将其转换成m个虚拟变量，就会导致变量间出现完全共线性的情况。

假设我们有一个特征“性别”，包含男性和女性两个类别，如果将此特征转换为2个虚拟变量，就是：男x₁=[1,0]，女x₂=[0,1]，意思就是：变量x₁，当性别为男时，x₁=1，否则x₁=0；变量x₂，当性别为女时，x₂=1，否则x₂=0。这样，目标y=w₁x₁+w₂x₂+b。因为x₁+x₂=1，因此，变量x₁和变量x₂之间存在线性关系，同时使用这两个变量将会导致共线性问题，使得模型参数无法估计。

解决的办法是：把目标y变成y=w₁(x₁+x₂)+(w₂-w₁)x₂+b=(w₂-w₁)x₂+w₁+b，意思就是把其中一个变量作为基准（这里是把“男”作为基准），将其从目标方程式中删去，这样只通过一个变量x₂就能推导出所有信息，x₂=1就表示性别为女，x₂=0则表示性别为男。

需要注意的是，针对二元定性变量到虚拟变量的转换，直接对类别进行数字编码（男：0，女：1）和将其转换为虚拟变量（男：[0]，女：[1]）看似一样，但这只是一个巧合而已，这两种方法有本质的区别。前者是直接将类别型变量转变成离散值进行表示，后者是减少一个变量（作为基准），只留取一个变量，在此基础上对另一个变量进行推论。一定要注意不要搞混了。

总结来说就是：当原特征有m个类别时，我们需要将其转换成m-1个虚拟变量。

还有一点需要注意的是，基准类别该如何选择？如果基准类别选择不合理，虚拟变量之间仍然会存在共线性的问题。这里直接给出结论：选择占比最大的类别作为基准类别。假设有a，b，c三个类别，如果基准类别a占比太少，那么即使把a去除，b和c之和也会接近于1。

参考：https://cloud.tencent.com/info/a018bd66948cd1ac84665f6fafc2082a.html

posted @ 2019-08-10 10:59 HuZihu 阅读(10736) 评论(1) 编辑收藏举报

刷新页面返回顶部

HuZihu

虚拟变量陷阱（Dummy Variable Trap）

公告