《BI那点儿事》Microsoft 线性回归算法
Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测。
该关系采用的表示形式是最能代表数据序列的线的公式。例如,以下关系图中的线是数据最可能的线性表示形式。
关系图中的每个数据点都有一个与该数据点与回归线之间距离关联的错误。回归方程式中的系数 a 和 b 可以调整回归线的角度和位置。可以对 a 和 b 进行调整,直到与所有点都关联的错误总数达到最低值,以此获得回归公式。
还有其他类型的使用多个变量的线性回归以及非线性回归方法。但是,线性回归是一种众所周知的有用方法,可对一些潜在因素中更改的响应进行建模。
示例
可以使用线性回归确定两个连续列之间的关系。例如,您可以使用线性回归根据生产或销售数据计算趋势线。还可以使用线性回归作为基础,来开发更复杂的数据挖掘模型,以评估数据列之间的关系。
尽管有许多计算线性回归的方法,而且这些方法不需要数据挖掘工具,但是使用 Microsoft 线性回归算法计算线性回归的优势在于可以自动计算并测试变量之间所有可能的关系。您不必选择计算方法,如计算最小平方法。但对于结果受多个因素影响的应用场景,线性回归可能会过分简化其中的关系。
下面我们进入主题,通过简单的过程配置我们来实现整个数据挖掘的过程,依次步骤如下:
参考文献:
Microsoft 线性回归算法
http://msdn.microsoft.com/zh-cn/library/ms174824(v=sql.105).aspx