回归在数据科学中意味着什么?
回归在数据科学中意味着什么?
单词如何与模型类型混淆
在数据科学中,回归问题是我们希望使用从数据中派生的特征来训练模型的问题,这些特征可以在一定的置信区间(通常为 95%)内预测数值(例如目标)。假设我们有兴趣预测的输出是一个连续的数值。
例如,假设我们想根据职位描述中提供的词语来预测一份工作的大致薪水。顺便说一句,一家公司实际上正在解决这个问题(请参阅 这里 )。
因为感兴趣的结果,薪水,很容易将其概念化为连续的数字结果,所以这个例子很容易转化为数据科学问题。事实上,回归问题通常是将数据科学纳入其解决方案的任何组织的第一步,因为大多数企业都清楚推动其业务决策的指标(例如金钱[利润、收入、薪水等]、数量[生产的单位每天,工作时间等],等等)。
为了训练回归模型来解决从职位描述预测薪水的问题,我们需要创建一个数据集,其中包括从职位描述派生的特征和与每个职位描述相关的薪水。一个简单的解决方案可能如下所示:
1. 使用计数向量器从职位描述中生成前 n 个单词和短语
一个。每个单词和短语将是数据集中的一个特征列
2. 使用我们的计数向量器转换每个职位描述,这样每个职位描述现在由 n 列中的每一列中不同单词和短语的频率表示
3.与每个职位描述相关的薪水保持一致
4. 使用特征来训练一个经典的多元回归模型来预测薪水
5. 使用 R 平方评估性能
6. 通过检查系数(强度和显着性 [p 值])来评估每个特征(例如单词或短语列)对解决方案的贡献。
在上面的示例中,我们演示了如何推导出一个简单的多元回归模型,以根据我们可以从这些描述中获得的特征来预测职位描述的薪水。我们还假设每个特征(例如单词或短语)使用简单的多元回归与薪水共享线性关系。此外,在没有任何特征选择的情况下,我们还冒着降低模型准确概括到需要薪水预测的新职位描述的能力的风险。
幸运的是,我们可以使用许多其他模型类型来帮助我们处理非线性和模型复杂性等问题。这里只是一些不同的回归模型算法和一些关于它们帮助我们克服的注释:
多重回归:
最基本的模型算法,它学习执行特征的线性组合以预测数值结果所需的权重(例如系数)。这些模型易于构建、易于解释且计算效率高。不利的一面是,它们还假设与结果变量呈直线(例如直线)关系。当结果呈正态分布、特征系数与结果显着相关且误差(例如残差)也呈正态分布时,这些模型的推广效果最好。
岭和套索回归:
在估计有助于处理非常复杂的模型的系数时,岭回归和套索回归都使用不同的校正。也就是说,包含许多功能的模型。总体思路是,模型越复杂(例如特征越多),系数就会受到惩罚(例如减少到 0)。
非线性回归算法:
o 决策树是一种非线性模型,可用于预测数值。其基本思想是决策树根据特征创建一系列拆分规则,以确定在不同特征值处拆分的复杂“树”,最终得出预测。这些模型在计算上可能比传统的回归模型更加繁重,并且对训练数据的范围非常敏感,这意味着模型可能无法很好地泛化。
o 随机森林类似于决策树,但不仅仅是单个决策树,随机森林组合了从数据样本中派生的多个决策树,并用于创建平均预测。多个“弱”树的平均是这些模型被称为集成模型的原因。随机森林比决策树的计算量更大,因此需要很长时间来训练。
o 支持向量机 (SVM) 与传统回归的不同之处在于,它们试图识别存在于比回归更高维度的预测值的超平面。在多元回归中,我们得出一条预测线。在 SVM 中,我们推导出一个超平面,它是作为每个特征向量的点积的函数创建的,以确定给出每个数据点之间距离最小的超平面的系数值。
喜欢参与学习数据科学、职业发展、生活或糟糕的商业决策?注册我的时事通讯 这里 并获得我的免费电子书的链接。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明