20160712梅西法&科利法

梅西法和科利法是BCS评分里的两种方法。BCS是用来确定哪些队伍被邀请参加哪个系列的比赛的。BCS主要是有两个评分来源:人和计算机。人的输入数据是教练和媒体,计算的输入是6个数学模型。具体BCS的细节这里不细谈了,以后有空专门写一篇博客谈,今天就只谈谈梅西法和科利法。

1. 梅西法

首先放出作者的网站masseyratings.com,如果要搜索梅西法的资料,建议直接google-"massey ratings",英文资料一大把。

1.1 梅西法基本原理

主要的公式如下:
\[r_i-r_j=y_k\]
其中\(y_k\)代表比赛k中获胜方的优势,\(r_i\)代表队伍i的评分,\(r_j\)代表队伍j的评分。针对历史已经比赛过的结果,我们可以列出一个上述形式的方程组。n支队伍,m场比赛,那么就有n个未知数,m个方程。写为:
\[Xr=y\]
X矩阵:每一行大部分为0,在第i列和j列上分别是1和-1.
y:代表获胜方优势的向量。
r:代表我们所求的每个队伍的评分。
这个方程组解法为\(X^T Xr=X^T y\)。针\(X^T X\)简单分析下,对角元素就是队伍i完成的比赛场数,非对焦元素就是队伍i和队伍j比赛场数的相反数。针对\(X^T y\)的第i个元素就是队伍i所有比赛获得的分差之和。
这里简单分析下\(X^T X\)是一个n阶对称方阵,也是一个对角阵,并且每一列线性相关。
为了让r有唯一解,往往需要给\(X^T X\)和\(X^T y\)增加一行0,表示每个队伍所有评分总和为0.

1.2 梅西法高级原理

这个高级原理就是引入了一个攻击和防守的特性。这里做了一个假设,队伍的评分等于攻击评分加上防守评分。现在我们引入一些符号来推导一些公式看看。
攻击评分:o
防守评分:d
向量\(X^Ty\)分解为f-a,代表得到的总分数-失去的分数。
矩阵\(X^TX\)分解为T-P,T是对角阵,P是非对角阵。
\[\begin{align}
X^TXr&=X^Ty \\
\left( T-P \right)\left( o+d \right) &= f-a \\
To-Po+Td-Pd &=f -a
\end{align}\]
将上式分解为:
\[
\begin{align}
To-Pd & =f\\
Po-Td & =a\\
\end{align}
\]
继续:
\[
\begin{align}
To-Pd & =f\\
T\left(r-d\right)-Pd&=f\\
\left( T+P\right)d&=Tr-f\\
\end{align}
\]
看看上式,除了d是所求的,其他的都能得到。那么这里的向量d和o就可以搞定了。

1.3 梅西法的使用

当我们能求到一个队伍的攻击分数和防守分数,那么我们可以预测该队伍的的比赛具体分数。比如A队伍攻击分数为5,防守分数为2,B队伍攻击分数为3,防守分数为4,则他们的比分应该是(5-4):(3-2),结局就是1:1。
网页中该如何使用梅西法排名呢?

如果两个网页之间没有超链接,则没有比赛,如果有超链,则代表有比赛。这里就可以搞定矩阵\(X^TX\)
同理可以利用所有入链总数减去所有出链总数,代表评分向量\(X^T Y\)。

2 科利法

这个和前面的梅西法不同,关键在于获胜率。以前的获胜率常常使用\(r_i = \frac{w_i}{t_i}\),也就是赢的场数除以比赛总场数。但是这个评分是有几个缺陷的,击败强的对手和弱的对手是一样的,如果从未获胜则胜率为0,很多时候常常发生评分持平的情况。
这个时候,科利对刚刚的公式做了一个小小的修改。
\[r_i = \frac{1+w_i}{2+t_i}\]
简单来看这个改变很简单,感觉用处应该不会太大。接下来就分析下,这个里面如何克服了上面提出的一些缺陷。

2.1 科利法原理

这里是对一个公式进行变形,讨论开始的。

\[\begin{align}
w_i & = \frac{w_i - l_i }{2} + \frac{w_i + l_i}{2} \\
& = \frac{w_i - l_i}{2} + \frac{t_i}{2} \\
& = \frac{w_i - l_i}{2} + \sum_{j=1}^{t_i}{\frac{1}{2}}
\end{align}\]

这个时候就展开对\(\sum_{j=1}^{t_i}{\frac{1}{2}}\)的讨论。
因为所有队伍都是以1/2开始的,所以最先开始时\(\sum_{j=1}^{t_i}{\frac{1}{2}}=\sum_{j\in o_j}{r_j}\)。这里的o_j是指队伍i的对手集合。随着比赛开始,\(\sum_{j=1}^{t_i}{\frac{1}{2}}=\sum_{j\in o_j}{r_j}\)这个等式就不成立了,但是我们可以说明这个等式近似成立,因为比赛的继续,一方胜利,一方失败,可以说评分是在1/2上左右摇摆的。这就是科利法的关键所在,接下来的推导就很简单了。
将\(w_i \approx \frac{w_i - l_i}{2} + \sum_{j \in o_i}{r_j}\),带入\(r_i = \frac{1+w_i}{2+t_i}\)中得到:
\[r_i = \frac{1+ \left( w_i - l_i\right)/2 + \sum_{j \in o_i}{r_j}}{2+t_i}\]
观察这个等式,记住我们要求的是r,这里未知的也是r。而且这里很明显是一个线性的等式,可以写为\(Cr= b\)的形式,继续吧。
\[b_i = 1 + \frac{1}{2}\left( w_i - l_i\right)\]
\[C_ij = \begin{cases}
2+ t_i,i=j \\
-n_{ij},i \neq j
\end{cases}\]
其中n_ij为队伍i和j比赛次数。可以证明C_{n*n}可逆,具有唯一解。

2.2 科利法应用

  1. 科利法的结果没有考虑比赛具体的分数,只考虑比赛的胜负情况。基于此科利法不会受到比赛具体分数的干扰,比如强队在弱队上大比分的胜出。
  2. 第二点,就是基于之前的假设,\(\sum_{j=1}^{t_i}{\frac{1}{2}}=\sum_{j\in o_j}{r_j}\),一个队伍胜率增加,代表另一个队伍胜率降低,但是平均值应该是1/2左右。

2.3 科利法和梅西法的联系

给出一个等式\(C = 2I + X^T X\),那么梅西法可以科利化为\( \left( 2I + X^T X \right)r=p\),这里的p也就是梅西法中的y,是包含了得分的信息。这里加上了2I,可以使得矩阵非奇异。同理梅西法也可以进行科利化,一切尽在之前的那个矩阵。

3.感想

说说自己的想法。这两个算法有相关性,有各自的优缺点,比如是否考虑比赛的分数,是否考虑比赛的胜率,能否计算攻守评分等等。但是这里会发现一切都是计算的线性的等式,什么意思呢,比如这个梅西法有偏,是因为这个方法会出现强队大胜弱队的情况,那么这个大胜获取的分数和他们的实力不是成正比,而求解是求解的线性的方程组,所以就导致了有偏。那如果这里能假设是平方的关系,就是获取的分数和实力是平方比的关系,抑或是更复杂的关系,小范围的实力差距是线性,大范围的实力差距是平方或更高的次方。那是否可以试试呢?

posted @ 2016-07-31 11:47  ericxk  阅读(506)  评论(0编辑  收藏  举报