现代精算风险理论12:信度理论(2)
第十二讲 信度理论(2)
第三节 Bühlmann 信度估计
一、方差分量模型
从有限波动信度的计算方法可以看出,判别是否可以采用完全信度的准则的参数 \(k\) 和 \(1-\alpha\) 是任意选择的,在使用时具有很大的主观性和局限性。Bühlmann 信度采用统计方法,通过最小化预测的均方误差给出。
现考虑一组保单,其损失为随机变量 \(X\) ,这里的 \(X\) 可以是索赔次数、索赔额或聚合损失等。假设保单组合风险包含一个参数 \(\theta\) ,即
假设保险公司有类似的保单组合,但具有不同的参数 \(\theta\) ,即认为 \(\theta\) 是一个随机变量 \(\Theta\) 的取值,其分布被称为先验分布,此时
显然 \(\mathbb{E}\left[X\mid \Theta\right]\) 和 \({\rm Var}\left[X\mid \Theta\right]\) 均是随机变量 \(\Theta\) 的函数,仍是随机变量,于是有
- 条件均值:\(\mathbb{E}\left[X\mid \Theta\right]\) ;
- 条件方差:\({\rm Var}\left[X\mid \Theta\right]\) ;
- 条件均值的方差:\({\rm Var}\left[\mathbb{E}\left(X\mid\Theta\right)\right]\) ;
- 条件方差的均值:\(\mathbb{E}\left[{\rm Var}\left(X\mid \Theta\right)\right]\) 。
我们将条件均值的方差称为组间方差,将条件方差的均值称为组内方差,并且有方差分解公式:
可以看出,损失 \(X\) 的变化可以分为两个部分:一部分是各类风险之间的变化,这部分的变化是由于各类风险组间的变化引起的,它决定于随机变量 \(\Theta\) ;另一部分是同类风险之间的变化,这部分是组内不同保单的随机性引起的,即为随机误差。
定义 \(\mu_{PV}\) 为条件方差的均值,即由于组内随机误差所引起的方差的均值:
定义 \(\sigma_{HM}^2\) 为条件均值的方差,即由于保单类别的不同所引起的组间的差异:
定义 \(k\) 值为
如果 \(k\) 值较小,则说明各类别的风险有很大的差异;如果 \(k\) 值较大,则说明各类别的风险比较一致。
如果组间方差 \(\sigma_{HM}^2\) 差异很小,则说明总方差主要来自于随机误差,即组别之间索赔风险的大小没有显著性的差异。因此在预测下一期保费时,可以对 \(X\) 不分组别进行预测。
如果组间方差 \(\sigma_{HM}^2\) 差异很大,则说明各组保单之间风险索赔是有差异的。因此在预测下一期保费时,需要分组别进行预测。
假设某一保险公司有一组保单,索赔次数 \(X\) 是参数为 \(\lambda\) 的泊松分布,其中 \(\lambda=20\) 是低风险组的取值,\(\lambda=50\) 是高风险组的取值。假设 \(30\%\) 的人是低风险组,\(70\%\) 的人是高风险组。计算索赔次数的条件期望和条件方差,均值和方差。
由题意知 \(X\mid\Lambda=\lambda\) 服从参数为 \(\lambda\) 的泊松分布,故有
\[\mu_X(\Lambda)=\mathbb{E}\left[X\mid\Lambda\right]=\Lambda ,\quad \sigma_X^2(\Lambda)={\rm Var}\left[X\mid\Lambda\right]=\Lambda. \]其中随机变量 \(\Lambda\) 的分布为
\[{\rm Pr}(\Lambda=20)=0.3 , \quad {\rm Pr}(\Lambda=50)=0.7. \]由全期望公式可知:
\[\mathbb{E}\left[X\right]=\mathbb{E}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=0.3\times20+0.7\times50=41. \]由方差分解公式可知:
\[\begin{aligned} &\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=0.3\times20+0.7\times50=41. \\ \\ &{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]={\rm Var}\left[\Lambda\right]=0.3\times(20-41)^2+0.7\times(50-41)^2=189. \\ \\ &{\rm Var}\left[X\right]=\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]+{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]=230. \end{aligned} \]由于组间变化而引起的方差占总方差比例为
\[\frac{{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]}{{\rm Var}\left[X\right]}=\frac{189}{230}=82.17\%, \]计算 \(k\) 值为
\[k=\frac{\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]}{{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]}=\frac{41}{189}=0.2169. \]说明各类别的风险有很大的差异,索赔的不同主要是由于风险类别的不同而引起的。
二、Bühlmann 模型
根据上面的方差分量分析,我们可以建立 Bühlmann 模型,决定各类保费的信度估计。即
其中 \(D\) 为分组别数据资料的样本均值,\(M\) 为先验均值,\(z\) 为信度因子,并且信度因子 \(z\) 由方差分量模型中的 \(k\) 值大小来决定。下面我们分几步给出基本的 Bühlmann 模型最小均方误差线性估计。
(1) 问题提出
设风险 \(X\) 的分布依赖于随机参数 \(\Theta\) ,且在给定 \(\Theta=\theta\) 时,记条件期望和条件方差为
记风险 \(X\) 的均值和方差为
在给定 \(\Theta=\theta\) 时,设 \(\{X_i,i\geq1\}\) 是从总体 \(X\) 中抽取的一个相互独立的简单随机样本。
我们的目标是给出风险 \(X\) 下一期索赔额 \(X_{n+1}\) 的估计。假设风险模型不变,则 \(X_{n+1}\) 仍可看成是 \(X\) 的一个样本。给出 \(X_{n+1}\) 的线性估计,即
其中 \(\beta_0,\beta_1,\cdots,\beta_n\) 为待估参数。以极小化 \(\widehat{X}_{n+1}\) 与 \(X_{n+1}\) 的均方误差为目标,则有
(2) 参数估计
我们将上述线性模型表示为向量和矩阵的形式,给出如下的记号:
由上面的记号有
计算均方误差有
使得均方误差最小的 \(\beta\) 为
经计算可得
由分块矩阵求逆公式可得
又因为
所以有
方差和协方差的计算,由前面的讨论可得
矩阵求逆公式:
\[\left(V+auv^\prime\right)^{-1}=V^{-1}-\frac{aV^{-1}uv^\prime V^{-1}}{1+av^\prime V^{-1}u}. \]
进一步可以将 \(\widehat\beta_S\) 和 \(\widehat\beta_0\) 表示为
于是 \(X_{n+1}\) 的预测值为
其中
我们将 \(\mu_{PV}\) 和 \(\sigma_{HM}^2\) 的比例 \(k\) 称为 Bühlmann 信度参数,将 \(z\) 称为 Bühlmann 信度因子。显然,信度因子 \(z\) 依赖于样本量的大小 \(n\) 以及信度参数 \(k\) 。
当 \(k\) 较大时,各组别间风险均值一致,差异不明显,此时信度因子 \(z\) 较小,即下一期保费的预测依赖于现有数据的权重较小。
当 \(k\) 较小时,各组别间风险均值差异明显,此时信度因子 \(z\) 较大,即下一期保费的预测依赖于现有数据的权重较大。
例如:假设索赔次数 \(X\sim P(\lambda)\) ,其先验分布为 \(\Lambda\sim\Gamma(\alpha,\beta)\) 。现有 \(n\) 个样本 \(X_1,X_2,\cdots,X_n\) ,给出下一年索赔次数的信度估计。
计算索赔的均值:
\[\mu_X=\mathbb{E}\left[X\right]=\mathbb{E}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=\alpha\beta. \]计算索赔的组内方差和组间方差:
\[\begin{aligned} &\mathbb{E}\left[X\mid\Lambda\right]=\Lambda ,\quad {\rm Var}\left[X\mid\Lambda\right]=\Lambda. \\ \\ &\mu_{PV}=\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=\alpha\beta, \\ \\ &\sigma^2_{HM}={\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]={\rm Var}(\Lambda)=\alpha\beta^2. \end{aligned} \]计算信度因子的估计:
\[\begin{aligned} &k=\frac{\mu_{PV}}{\sigma^2_{HM}}=\frac{\alpha\beta}{\alpha\beta^2}=\frac1\beta, \\ \\ &z=\frac{n}{n+k}=\frac{n\beta}{n\beta+1}. \end{aligned} \]计算下一年索赔次数的信度估计:
\[\widehat{X}_{n+1}=z\bar{X}+(1-z)\mu_X=\frac{n\beta}{n\beta+1}\bar{X}+\frac{1}{n\beta+1}\alpha\beta. \]注意:比较贝叶斯方法,两者的估计完全一致。
三、Bühlmann-Straub 模型
在 Bühlmann 模型中,我们假设索赔额 \(X_i\) 具有相同的方差,即 \({\rm Var}\left[X_i\mid\theta\right]=\sigma_X^2(\theta)\) 。接下来我们讨论异方差的情形。这里我们需要给出一个异方差形式的构造,即 Bühlmann-Straub 模型。
(1) 模型假设
假设 \(X_i\) 是第 \(i\) 年每份保单的平均索赔额,设 \(m_i\) 是第 \(i\) 年保单的数量,则
在给定 \(\Theta=\theta\) 的条件下,保单索赔额 \(X_{ij}\) 相互独立同分布,与 \(X\) 具有相同的分布,每份保单索赔额的条件均值和条件方差仍为 \(\mu_X(\Theta)\) 和 \(\sigma_X^2(\Theta)\) 。
在给定 \(\Theta=\theta\) 的条件下,平均索赔额的条件均值和条件方差为
于是 \(X_i\) 的方差可以分解为
(2) 参数估计
我们的目标是给出风险 \(X\) 下一期索赔额 \(X_{n+1}\) 的估计。假设风险模型不变,即 \(X_{n+1}\) 也满足上面的假设。计算 \(X_{n+1}\) 的线性估计,即
以极小化 \(\widehat{X}_{n+1}\) 与 \(X_{n+1}\) 的均方误差为目标,和 Bühlmann 模型完全一致,但方差和协方差的估计有所变化,即
其中,方差和协方差的估计为
于是 \(\widehat\beta_S\) 可以进一步表示为
其中
记 \(\boldsymbol{m}=(m_1,m_2,\cdots,m_n)^\prime\) ,以及
由矩阵求逆公式可得
所以 \(\widehat\beta_S\) 可以展开得
注意到,此时的样本均值应该是所有年份的全体保单的索赔额的均值,因此有
仍然记信度参数 \(k=\mu_{PV}/\sigma^2_{HM}\) ,于是有
其中,信度因子为
最后计算 \(X_{n+1}\) 的估计为
即为 Bühlmann-Straub 模型最小均方误差线性估计。
假设每年每个被保险人发生索赔的次数服从二项分布 \(B(2,\theta)\) ,索赔的发生相互独立。参数 \(\theta\) 服从参数为 \(\alpha=1,\beta=10\) 的贝塔分布,并收集到如下 \(4\) 年的资料:
\[\begin{array}{c|c|c} \hline \text{Year} & \text{Number of insureds} & \text{Number of claims} \\ \hline 1 & 100 & 7 \\ 2 & 200 & 13 \\ 3 & 250 & 18 \\ 4 & 280 & \\ \hline \end{array} \]利用 Bühlmann-Straub 模型估计第四年的索赔数。
由模型假设可知
\[\begin{aligned} &\mathbb{E}\left[X_i\mid\Theta\right]=\frac1{m_i}\sum_{j=1}^{m_i}\mathbb{E}\left[X_{ij}\mid\Theta\right]=2\Theta. \\ \\ &\sigma_{HM}^2={\rm Var}\left[\mathbb{E}\left(X_i\mid\Theta\right)\right]={\rm Var}(2\Theta)=4{\rm Var}(\Theta). \\ \\ &{\rm Var}\left[X_i\mid\Theta\right]=\frac{1}{m_i^2}\sum_{j=1}^{m_i}{\rm Var}\left[X_{ij}\mid\Theta\right]=\frac{2\Theta(1-\Theta)}{m_i}, \\ \\ &\mu_{PV}=m_i\cdot\mathbb{E}\left[{\rm Var}\left(X_i\mid\Theta\right)\right]=2\mathbb{E}\left[\Theta(1-\Theta)\right]. \end{aligned} \]由 \(\Theta\sim{\rm Be}(1,10)\) 可知
\[\begin{aligned} &\mathbb{E}\left[\Theta\right]=\frac{\alpha}{\alpha+\beta}=\frac{1}{11}=0.0909, \\ \\ &{\rm Var}\left(\Theta\right)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}=\frac{10}{11\times11\times12}=0.006887. \end{aligned} \]所以
\[\begin{aligned} &\mu_{PV}=2\mathbb{E}\left[\Theta\right]-2\mathbb{E}\left[\Theta^2\right]=0.1515, \\ \\ &\sigma_{HM}^2=4\times0.006887=0.027548. \\ \\ &k=\frac{\mu_{PV}}{\sigma_{HM}^2}=\frac{0.1515}{0.027548}=5.5. \end{aligned} \]由前三年的数据可知
\[\begin{aligned} &m=100+200+250=550 , \\ \\ &z=\frac{m}{m+k}=0.9901 , \\ \\ &\mu_X=2\mathbb{E}\left[\Theta\right]=\frac2{11}=0.1818, \\ \\ &\bar{X}=\frac{7+13+18}{550}=0.0691. \end{aligned} \]所以
\[\widehat{X}_{4}=z\bar{X}+(1-z)\mu_X=0.9901\times0.0691+(1-0.9901)\times0.1818=0.0702. \]于是第四年每份保单索赔次数的预测为 \(280\times0.0702\approx20\) 。
第四节 Bühlmann 信度统计模型
一、模型假设及其解释
以上我们对 Bühlmann 信度的讨论,都是从方差分量模型出发给出的信度因子的估计,这是一种根据总体特征给出的估计方法。事实上,我们还可以从统计模型的角度出发,根据样本特征进行参数估计和假设检验,并基于方差分析技术给出 Bühlmann 信度因子的估计。
假设随机变量 \(X_{jt}\) 表示第 \(j\) 个保险合同在第 \(t\) 次的索赔额,其中 \(j=1,2,\cdots,J,\ t=1,2,\cdots,T\) 。
假设索赔额的模型为
假设模型满足如下条件:随机误差 \(\{\varepsilon_j\}\) 与 \(\{\varepsilon_{jt}\}\) 是两个独立的随机变量序列:
-
\(\{\varepsilon_j\}\) 对所有的 \(j\) 是独立同分布的随机误差,满足 \(\mathbb{E}\left[\varepsilon_j\right]=0,\ {\rm Var}\left[\varepsilon_j\right]=a\) ;
-
\(\{\varepsilon_{jt}\}\) 对所有的 \(j\) 和 \(t\) 均是独立同分布的随机误差,满足 \(\mathbb{E}\left[\varepsilon_{jt}\right]=0,\ {\rm Var}\left[\varepsilon_{jt}\right]=s^2\) 。
由此可以得到 \(X_{jt}\) 的方差为
下面我们将给出模型的解释,即随机误差 \(\{\varepsilon_j\}\) 与 \(\{\varepsilon_{jt}\}\) 的来源。
假设索赔额 \(X_{jt}\) 依赖于某个参数 \(\Lambda_j\) ,则索赔额 \(X_{jt}\) 可以作如下的分解:
-
随机变量 \(X_{jt}\) 是第 \(j\) 个保险合同在第 \(t\) 次的索赔额,模型中的 \(m=\mathbb{E}\left[X_{jt}\right]\) 表示总平均,它等于该保单组合的平均索赔额,参数 \(\Lambda_j\) 独立同分布,并假设与 \(\Lambda\) 具有相同的分布。
-
随机误差 \(\varepsilon_j=\mathbb{E}\left[X_{jt}\mid\Lambda_j\right]-m\) 表示第 \(j\) 个合同的索赔均值与总索赔均值之间的偏差,即 \(\varepsilon_j\) 刻画了同一险种内不同合同之间的索赔波动,称 \(\varepsilon_j\) 的分布为结构分布:
\[\begin{aligned} &\mathbb{E}\left[\varepsilon_j\right]=\mathbb{E}\left[\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)-m\right]=0. \\ \\ &{\rm Var}\left[\varepsilon_j\right]={\rm Var}\left[\mathbb{E}\left(X_{ij}\mid\Lambda_j\right)-m\right]=a. \end{aligned} \] -
随机误差 \(\varepsilon_{jt}=X_{jt}-\mathbb{E}\left[X_{jt}\mid\Lambda_j\right]\) 表示索赔额的随机波动
\[\begin{aligned} &\mathbb{E}\left[\varepsilon_{jt}\right]=\mathbb{E}\left[X_{jt}-\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)\right]=0. \\ \\ &{\rm Var}\left[\varepsilon_{jt}\right]={\rm Var}\left[X_{jt}-\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)\right]=s^2. \end{aligned} \]
我们将 \({\rm Var}\left[\varepsilon_j\right]\) 称为组间方差,将 \({\rm Var}\left[\varepsilon_{jt}\right]\) 称为组内方差。注意 \(\varepsilon_j\) 与 \(\varepsilon_{jt}\) 不独立,但不相关,即
此外,对于 \(s\neq t\) 也有 \(\varepsilon_{js}\) 与 \(\varepsilon_{jt}\) 不独立,但不相关。
故模型的条件可以减弱为:随机误差 \(\{\varepsilon_j\}\) 与 \(\{\varepsilon_{jt}\}\) 是两个不相关的随机变量序列:
-
\(\{\varepsilon_j\}\) 对所有的 \(j\) 是不相关的分布相同的随机误差,满足 \(\mathbb{E}\left[\varepsilon_j\right]=0,\ {\rm Var}\left[\varepsilon_j\right]=a\) ;
-
\(\{\varepsilon_{jt}\}\) 对所有的 \(j\) 和 \(t\) 均是不相关的分布相同的随机误差,满足 \(\mathbb{E}\left[\varepsilon_{jt}\right]=0,\ {\rm Var}\left[\varepsilon_{jt}\right]=s^2\) 。
二、索赔额的齐次线性无偏估计
根据经验,在均方误差极小的意义下,我们希望找到一个齐次线性无偏估计,即对于线性估计
要找到一组 \(\left\{g_{jt}:j=1,2,\cdots,J,t=1,2,\cdots,T\right\}\) ,满足
定理:在模型及其假设下,以及在均方误差极小的意义下,\(X_{i(T+1)}\) 的线性无偏估计为
其中 \(z\) 称为最优信度因子,\(\bar{X}\) 是整体均值估计量,\(\bar{X}_i\) 是第 \(i\) 个险种的组内均值估计量,满足
设线性无偏估计为
\[\widehat{X}_{i(T+1)}=\sum_{j=1}^J\sum_{t=1}^Tg_{jt}X_{jt} , \quad i=1,2,\cdots,T, \]由独立同分布假设,对于任意的 \(i\neq l\) 和 \(i\neq j\) ,当 \(l\neq j\) 时,随机变量 \(X_{lt}\) 和 \(X_{jt}\) 是可互换的。
由对称性,在最优的时候,所有的 \(g_{lt},\ l\neq i\) 必须相同,于是可以将线性无偏估计写为
\[\widehat{X}_{i(T+1)}\equiv\sum_{t=1}^T{\color{red} g_{1t}} X_{it}+\sum_{j\neq i}\sum_{t=1}^T{\color{red} g_{2t}}X_{jt} . \]对 \(g_{it},t=1,2,\cdots,T\) 作同样的讨论,于是
\[\begin{aligned} \widehat{X}_{i(T+1)}&\equiv{\color{red} g_{1}} \sum_{t=1}^TX_{it}+{\color{red} g_{2}}\sum_{j\neq i}\sum_{t=1}^TX_{jt} \\ \\ &=g_1T\bar{X}_i+g_2JT\bar{X}-g_2T\bar{X}_i \\ \\ &=(g_1-g_2)T\bar{X}_i+g_2JT\bar{X}. \end{aligned} \]由于无偏性的限制,所以有
\[\mathbb{E}\left[\widehat{X}_{i(T+1)}\right]=\mathbb{E}\left[X_{i(T+1)}\right]=m, \]并且由于
\[\mathbb{E}\left[\bar{X}_i\right]=m,\quad \mathbb{E}\left[\bar{X}\right]=m, \]因此有
\[\mathbb{E}\left[(g_1-g_2)T\bar{X}_i+g_2JT\bar{X}\right]=(g_1-g_2)Tm+g_2JTm=m, \\ \\ \Longrightarrow \quad (g_1-g_2)T+g_2JT=1. \]令 \(z=(g_1-g_2)T\) ,则 \(g_2JT=1-z\) ,因此具有最小均方误差的齐次线性估计量的形式如下:
\[\widehat{X}_{i(T+1)}=z\bar{X}_i+(1-z)\bar{X}. \]均方误差可以改写为
\[\begin{aligned} \mathbb{E}\left[X_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2&=\mathbb{E}\left[X_{i(T+1)}-z\bar{X}_i-(1-z)\bar{X}\right]^2 \\ \\ &=\mathbb{E}\left[X_{i(T+1)}-\bar{X}-z\left(\bar{X}_i-\bar{X}\right)\right]^2 \\ \\ &=\mathbb{E}\left[X_{i(T+1)}-\bar{X}\right]^2+z^2\mathbb{E}\left[\bar{X}_i-\bar{X}\right]^2 \\ \\ &\quad \;-2z\mathbb{E}\left[\left(X_{i(T+1)}-\bar{X}\right)\left(\bar{X}_i-\bar{X}\right)\right]. \end{aligned} \]由于 \(\mathbb{E}\left[X_{i(T+1)}-\bar{X}\right]=0,\ \mathbb{E}\left[\bar{X}_i-\bar{X}\right]=0\) ,所以
\[\begin{aligned} \mathbb{E}\left[X_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2&={\rm Var}\left[X_{i(T+1)}-\bar{X}\right]+z^2{\rm Var}\left[\bar{X}_i-\bar{X}\right]\\ \\ &\quad \;-2z{\rm Cov}\left[X_{i(T+1)}-\bar{X},\bar{X}_i-\bar{X}\right]. \end{aligned} \]由二次函数的性质可知,当 \(z\) 取如下值时达到最小:
\[z=\frac{{\rm Cov}\left[X_{i(T+1)}-\bar{X},\bar{X}_i-\bar{X}\right]}{{\rm Var}\left[\bar{X}_i-\bar{X}\right]}. \]由模型的假设计算可得
\[\begin{aligned} &{\rm Cov}\left[X_{it},X_{iu}\right]=a ,\quad t\neq u , \\ \\ &{\rm Var}\left[X_{it}\right]=a+s^2 , \\ \\ &{\rm Cov}\left[X_{it},\bar{X}_i\right]={\rm Var}\left[\bar{X}_i\right]=a+\frac{s^2}{T}, \\ \\ &{\rm Cov}\left[\bar{X}_i,\bar{X}\right]={\rm Var}\left[\bar{X}\right]=\frac1J\left(a+\frac{s^2}{T}\right). \end{aligned} \]由此可得
\[z=\frac{aT}{aT+s^2}. \]
由信度因子 \(z\) 的表达式可知,信度因子 \(z\) 具有以下的渐近性质:
-
如果 \(T\to\infty\) ,则 \(z\to1\) ,说明理赔记录越多,对保费的预测的把握越大。
-
如果 \(a\downarrow 0\) ,则 \(z\downarrow 0\) ,即各组别险种的保单的保费均可以由 \(\bar{X}\) 统一给出,不需要分组估计。
-
如果 \(a\to\infty\) ,则 \(z\to1\) ,即其他险种数据不提供任何关于第 \(i\) 个险种的信息。
-
如果 \(s^2\to\infty\) ,则 \(z\to 0\) ,即误差的方差充分大,则分组的信息对保费的预测没有参考价值,因此可以用 \(\bar{X}\) 统一给出下一期索赔的预测。
注意到,对于一组索赔额样本 \(\{X_{jt},j=1,2,\cdots,J,t=1,2,\cdots,T\}\) ,只有当 \(s^2/a\) 已知时,信度因子 \(z\) 才可以计算。如果 \(s^2/a\) 未知,我们需要首先根据这组样本给出参数 \(m,s^2\) 和 \(a\) 的估计。记
经计算可得
所以模型中的三个参数 \(m,s^2,a\) 的估计可以写为
信度因子 \(z\) 的估计可以写为
这里我们再讨论一个小问题:对于任意一组索赔额的样本,\(\widehat{a}>0\) 是否一定成立?答案是不一定,因此在实际中我们经常采用 \(\max\{0,\widehat{a}\}\) 作为 \(a\) 的估计。
关于 \(a\) 的非负性不是几乎处处成立的,我们可以用以下方法进行说明:
如果 \(\varepsilon_{it}\sim N(0,s^2)\) ,定义
\[SSW=\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2, \]则有
\[\frac{SSW}{s^2}=\frac1{s^2}{\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2}=\frac1{s^2}{\sum_{j=1}^J\sum_{t=1}^T\left(\varepsilon_{jt}-\bar{\varepsilon}_j\right)^2}\sim\chi^2(J(T-1)). \]如果 \(\varepsilon_j\sim N(0,a)\) ,定义
\[SSB=\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2, \]则有
\[\frac{SSB}{aT+s^2}=\frac{1}{aT+s^2}\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2=\frac{1}{aT+s^2}\sum_{j=1}^JT\left(\bar{\varepsilon}_j-\bar{\varepsilon}\right)^2\sim\chi^2(J-1). \]所以
\[F\xlongequal{def}\frac{1-z}{1-\widehat{z}}=(1-z)\frac{MSB}{MSW}=\frac{SSB/(a+s^2/T)}{SSW/s^2}\sim F(J-1,J(T-1)). \]于是
\[\mathrm{Pr}\left(\widehat{a}<0\right)=\mathrm{Pr}\left(\frac{MSB}{MSW}<1\right)={\rm Pr}\left(F<1-z\right)\approx{\rm Pr}(F<1-\widehat{z})\geq0. \]
三、索赔额的非齐次线性无偏估计
在均方误差极小的意义下,我们也可以找到一个非齐次线性无偏估计,即对于线性估计
要找到一组 \(\left\{g_{jt}:j=1,2,\cdots,J,t=1,2,\cdots,T\right\}\cup\{g_0\}\) ,满足
采用上面类似的方法,最佳非齐次线性无偏估计量可以改写为
满足 \(g_0=(1-g_1+g_2)m\) 。这里我们不加证明地给出如下定理。
定理:在模型及其假设下,如果采用非齐次线性无偏估计预测下一年的各险种的理赔 \(X_{i(T+1)}\) ,则在均方误差极小的意义下,\(X_{i(T+1)}\) 的最优预测是信度保费
其中最优信度因子为
第 \(i\) 个险种的平均值为
四、统计模型例题
假设我们有如下的 \(3\) 个组的 \(5\) 年的观测数据:
\[\begin{array}{c|c|c|c|c|c} \hline & t=1 & t=2 & t = 3 & t = 4 & t=5 & \bar{X}_j \\ \hline j=1 & 99.3 & 93.7 & 103.9 & 92.5 & 110.6 & 100.0 \\ j = 2 & 112.3 & 108.3 & 118.0 & 99.4 & 111.8 & 110.0 \\ j = 3 & 129.2 & 140.9 & 108.3 & 105.0 & 116.6 & 120.0 \\ \hline \end{array} \]采用方差分析,计算可以得出
\[F=4.6 \geq F_{0.95}(2,12)=3.89, \]表明每组的平均索赔额不完全相等。
下面计算信度因子的估计:
\[\begin{aligned} &MSB=\frac{1}{J-1}\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2=500, \\ \\ &MSW=\frac{1}{J(T-1)}\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2=108.97, \\ \\ &\widehat{z}=\frac{500-108.97}{500}=0.782. \end{aligned} \]经计算可得:
\[\bar{X}=110,\quad \bar{X}_1=100,\quad \bar{X}_2=110,\quad \bar{X}_3=120. \]下面计算下一期的保费预测:
\[\begin{aligned} &i=1, & \widehat{X}_{1,6}=\widehat{z}\bar{X}_1+\left(1-\widehat{z}\right)\bar{X}=102.18, \\ \\ &i=2, & \widehat{X}_{2,6}=\widehat{z}\bar{X}_2+\left(1-\widehat{z}\right)\bar{X}=110.00, \\ \\ &i=3, & \widehat{X}_{3,6}=\widehat{z}\bar{X}_3+\left(1-\widehat{z}\right)\bar{X}=117.82. \end{aligned} \]最后估算一下 \(\widehat{a}<0\) 的概率:由 \(1-\widehat{z}=0.218\) 可知
\[\mathrm{Pr}\left(\widehat{a}<0\right)\approx{\rm Pr}\left(F(2,12)<0.218\right)=0.1928. \]