现代精算风险理论12：信度理论(2)

第十二讲信度理论(2)
- 第三节 Bühlmann 信度估计
- 第四节 Bühlmann 信度统计模型

第十二讲信度理论(2)

第三节 Bühlmann 信度估计

一、方差分量模型

从有限波动信度的计算方法可以看出，判别是否可以采用完全信度的准则的参数 \(k\) 和 \(1-\alpha\) 是任意选择的，在使用时具有很大的主观性和局限性。Bühlmann 信度采用统计方法，通过最小化预测的均方误差给出。

现考虑一组保单，其损失为随机变量 \(X\) ，这里的 \(X\) 可以是索赔次数、索赔额或聚合损失等。假设保单组合风险包含一个参数 \(\theta\) ，即

\[\mathbb{E}\left[X\mid \theta\right]=\mu_X(\theta),\quad {\rm Var}\left[X\mid \theta\right]=\sigma_X^2(\theta). \]

假设保险公司有类似的保单组合，但具有不同的参数 \(\theta\) ，即认为 \(\theta\) 是一个随机变量 \(\Theta\) 的取值，其分布被称为先验分布，此时

\[\mathbb{E}\left[X\mid \Theta\right]=\mu_X(\Theta),\quad {\rm Var}\left[X\mid \Theta\right]=\sigma_X^2(\Theta). \]

显然 \(\mathbb{E}\left[X\mid \Theta\right]\) 和 \({\rm Var}\left[X\mid \Theta\right]\) 均是随机变量 \(\Theta\) 的函数，仍是随机变量，于是有

条件均值：\(\mathbb{E}\left[X\mid \Theta\right]\) ；
条件方差：\({\rm Var}\left[X\mid \Theta\right]\) ；
条件均值的方差：\({\rm Var}\left[\mathbb{E}\left(X\mid\Theta\right)\right]\) ；
条件方差的均值：\(\mathbb{E}\left[{\rm Var}\left(X\mid \Theta\right)\right]\) 。

我们将条件均值的方差称为组间方差，将条件方差的均值称为组内方差，并且有方差分解公式：

\[{\rm Var}\left[X\right]=\mathbb{E}\left[{\rm Var}\left(X\mid \Theta\right)\right]+{\rm Var}\left[\mathbb{E}\left(X\mid\Theta\right)\right]. \]

可以看出，损失 \(X\) 的变化可以分为两个部分：一部分是各类风险之间的变化，这部分的变化是由于各类风险组间的变化引起的，它决定于随机变量 \(\Theta\) ；另一部分是同类风险之间的变化，这部分是组内不同保单的随机性引起的，即为随机误差。

定义 \(\mu_{PV}\) 为条件方差的均值，即由于组内随机误差所引起的方差的均值：

\[\mu_{PV}=\mathbb{E}\left[{\rm Var}\left(X\mid \Theta\right)\right]=\mathbb{E}\left[\sigma_X^2(\Theta)\right] . \]

定义 \(\sigma_{HM}^2\) 为条件均值的方差，即由于保单类别的不同所引起的组间的差异：

\[\sigma_{HM}^2={\rm Var}\left[\mathbb{E}\left(X\mid \Theta\right)\right]={\rm Var}\left[\mu_X(\Theta)\right]. \]

定义 \(k\) 值为

\[k=\frac{\mu_{PV}}{\sigma_{HM}^2}, \]

如果 \(k\) 值较小，则说明各类别的风险有很大的差异；如果 \(k\) 值较大，则说明各类别的风险比较一致。

如果组间方差 \(\sigma_{HM}^2\) 差异很小，则说明总方差主要来自于随机误差，即组别之间索赔风险的大小没有显著性的差异。因此在预测下一期保费时，可以对 \(X\) 不分组别进行预测。

如果组间方差 \(\sigma_{HM}^2\) 差异很大，则说明各组保单之间风险索赔是有差异的。因此在预测下一期保费时，需要分组别进行预测。

假设某一保险公司有一组保单，索赔次数 \(X\) 是参数为 \(\lambda\) 的泊松分布，其中 \(\lambda=20\) 是低风险组的取值，\(\lambda=50\) 是高风险组的取值。假设 \(30\%\) 的人是低风险组，\(70\%\) 的人是高风险组。计算索赔次数的条件期望和条件方差，均值和方差。

由题意知 \(X\mid\Lambda=\lambda\) 服从参数为 \(\lambda\) 的泊松分布，故有

\[\mu_X(\Lambda)=\mathbb{E}\left[X\mid\Lambda\right]=\Lambda ,\quad \sigma_X^2(\Lambda)={\rm Var}\left[X\mid\Lambda\right]=\Lambda. \]
其中随机变量 \(\Lambda\) 的分布为

\[{\rm Pr}(\Lambda=20)=0.3 , \quad {\rm Pr}(\Lambda=50)=0.7. \]
由全期望公式可知：

\[\mathbb{E}\left[X\right]=\mathbb{E}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=0.3\times20+0.7\times50=41. \]
由方差分解公式可知：

\[\begin{aligned} &\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=0.3\times20+0.7\times50=41. \\ \\ &{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]={\rm Var}\left[\Lambda\right]=0.3\times(20-41)^2+0.7\times(50-41)^2=189. \\ \\ &{\rm Var}\left[X\right]=\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]+{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]=230. \end{aligned} \]
由于组间变化而引起的方差占总方差比例为

\[\frac{{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]}{{\rm Var}\left[X\right]}=\frac{189}{230}=82.17\%, \]
计算 \(k\) 值为

\[k=\frac{\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]}{{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]}=\frac{41}{189}=0.2169. \]
说明各类别的风险有很大的差异，索赔的不同主要是由于风险类别的不同而引起的。

二、Bühlmann 模型

根据上面的方差分量分析，我们可以建立 Bühlmann 模型，决定各类保费的信度估计。即

\[P=zD+(1-z)M, \]

其中 \(D\) 为分组别数据资料的样本均值，\(M\) 为先验均值，\(z\) 为信度因子，并且信度因子 \(z\) 由方差分量模型中的 \(k\) 值大小来决定。下面我们分几步给出基本的 Bühlmann 模型最小均方误差线性估计。

(1) 问题提出

设风险 \(X\) 的分布依赖于随机参数 \(\Theta\) ，且在给定 \(\Theta=\theta\) 时，记条件期望和条件方差为

\[\mathbb{E}\left[X\mid\theta\right]=\mu_X(\theta),\quad {\rm Var}\left[X\mid\theta\right]=\sigma_X^2(\theta). \]

记风险 \(X\) 的均值和方差为

\[\mathbb{E}\left[X\right]=\mu_X,\quad {\rm Var}\left[X\right]=\mu_{PV}+\sigma^2_{HM}. \]

在给定 \(\Theta=\theta\) 时，设 \(\{X_i,i\geq1\}\) 是从总体 \(X\) 中抽取的一个相互独立的简单随机样本。

我们的目标是给出风险 \(X\) 下一期索赔额 \(X_{n+1}\) 的估计。假设风险模型不变，则 \(X_{n+1}\) 仍可看成是 \(X\) 的一个样本。给出 \(X_{n+1}\) 的线性估计，即

\[\widehat{X}_{n+1}=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_nX_n, \]

其中 \(\beta_0,\beta_1,\cdots,\beta_n\) 为待估参数。以极小化 \(\widehat{X}_{n+1}\) 与 \(X_{n+1}\) 的均方误差为目标，则有

\[\left(\widehat{\beta}_0,\widehat{\beta}_1,\cdots,\widehat{\beta}_n\right)^\prime=\underset{\left({\beta}_0,{\beta}_1,\cdots,{\beta}_n\right)^\prime}{\arg\min}{\rm Mse}\left(\widehat{X}_{n+1}\right)=\underset{\left({\beta}_0,{\beta}_1,\cdots,{\beta}_n\right)^\prime}{\arg\min}\mathbb{E}\left[X_{n+1}-\widehat{X}_{n+1}\right]^2. \]

(2) 参数估计

我们将上述线性模型表示为向量和矩阵的形式，给出如下的记号：

\[X=\left(X_1,X_2,\cdots,X_n\right)^\prime,\quad W=\left(1,X^\prime\right)^\prime, \\ \\ \beta_S=\left(\beta_1,\beta_2,\cdots,\beta_n\right)^\prime,\quad W=\left(\beta_0,\beta_S^\prime\right)^\prime. \]

由上面的记号有

\[\widehat{X}_{n+1}=\beta^\prime W=\beta_0+\beta_SX. \]

计算均方误差有

\[\begin{aligned} {\rm Mse}\left(\widehat{X}_{n+1}\right)&=\mathbb{E}\left[X_{n+1}-\widehat{X}_{n+1}\right]^2 \\ \\ &=\mathbb{E}\left[X_{n+1}-\beta^\prime W\right]^2 \\ \\ &=\mathbb{E}\left[X_{n+1}\right]^2+\beta^\prime\mathbb{E}\left[WW^\prime\right]\beta-2\beta^\prime\mathbb{E}\left[WX_{n+1}\right]. \end{aligned} \]

使得均方误差最小的 \(\beta\) 为

\[\widehat\beta=\left[\mathbb{E}\left(WW^{\prime}\right)\right]^{-1}\left[\mathbb{E}\left(WX_{n+1}\right)\right] . \]

经计算可得

\[\left[\mathbb{E}\left(WW^{\prime}\right)\right]^{-1}=\left[\mathbb{E}\begin{pmatrix} 1 & X^{\prime} \\ X &XX^\prime \end{pmatrix}\right]^{-1}\xlongequal{def}\begin{pmatrix} 1 & B \\ C & D \end{pmatrix}^{-1}. \]

由分块矩阵求逆公式可得

\[\left(\begin{array}{cc} 1 & B \\ C & D \end{array}\right)^{-1}=\left(\begin{array}{cc} 1+B(D-C B)^{-1} C & -B(D-C B)^{-1} \\ -(D-C B)^{-1} C & (D-C B)^{-1} \end{array}\right). \]

又因为

\[\mathbb{E}\left(WX_{n+1}\right)=\begin{pmatrix} \mathbb{E}\left[X_{n+1}\right] \\ \mathbb{E}\left[XX_{n+1}\right] \end{pmatrix}, \]

所以有

\[\begin{aligned} &\begin{aligned} \widehat\beta_S&=-(D-CB)^{-1}C\mathbb{E}\left[X_{n+1}\right]+(D-CB)^{-1}\mathbb{E}\left[XX_{n+1}\right] \\ \\ &=(D-CB)^{-1}\left[\mathbb{E}\left[XX_{n+1}\right] - C\mathbb{E}\left[X_{n+1}\right]\right] \\ \\ &=\begin{bmatrix} {\rm Var}(X_1) & {\rm Cov}(X_1,X_2) & \cdots & {\rm Cov}(X_1,X_n) \\ {\rm Cov}(X_1,X_2) & {\rm Var}(X_2) & \cdots & {\rm Cov}(X_2,X_n) \\ \vdots & \vdots & & \vdots \\ {\rm Cov}(X_1,X_n) & {\rm Cov}(X_2,X_n) & \cdots & {\rm Var}(X_n) \\ \end{bmatrix}^{-1} \begin{bmatrix} {\rm Cov}(X_1,X_{n+1}) \\ {\rm Cov}(X_2,X_{n+1}) \\ \vdots \\ {\rm Cov}(X_n,X_{n+1}) \end{bmatrix}. \end{aligned} \\ \\ \\ &\begin{aligned} \widehat{\beta}_0&=\left[1+B(D-CB)^{-1}C\right]\mathbb{E}\left[X_{n+1}\right]-B(D-CB)^{-1}\mathbb{E}\left[XX_{n+1}\right] \\ \\ &=\mathbb{E}\left[X_{n+1}\right]-B(D-CB)^{-1}\left[\mathbb{E}\left[XX_{n+1}\right]-C\mathbb{E}\left[X_{n+1}\right]\right] \\ \\ &=\mathbb{E}\left[X_{n+1}\right]-\sum_{i=1}^n\widehat{\beta}_i\mathbb{E}\left[X_i\right] \\ \\ &=\mu_X-\mu_X\sum_{i=1}^n\widehat{\beta}_i. \end{aligned} \end{aligned} \]

方差和协方差的计算，由前面的讨论可得

\[\begin{aligned} &{\rm Var}\left[X_i\right]=\mu_{PV}+\sigma_{HM}^2 ,\quad i=1,2,\cdots,n . \\ \\ &\begin{aligned} {\rm Cov}\left(X_i,X_j\right)&=\mathbb{E}\left[X_iX_j\right]-\mathbb{E}\left[X_i\right]\mathbb{E}\left[X_j\right] \\ \\ &=\mathbb{E}\left[\mathbb{E}\left[X_iX_j\mid\Theta\right]\right]-\mu_X^2 \\ \\ &=\mathbb{E}\left[\mathbb{E}\left[X_i\mid\Theta\right]\mathbb{E}\left[X_j\mid\Theta\right]\right]-\mu_X^2 \\ \\ &=\mathbb{E}\left[\left[\mu_X(\Theta)\right]^2\right]-\mu_X^2 \\ \\ &=\sigma_{HM}^2, \quad i\neq j. \end{aligned} \end{aligned} \]

矩阵求逆公式：

\[\left(V+auv^\prime\right)^{-1}=V^{-1}-\frac{aV^{-1}uv^\prime V^{-1}}{1+av^\prime V^{-1}u}. \]

进一步可以将 \(\widehat\beta_S\) 和 \(\widehat\beta_0\) 表示为

\[\begin{aligned} &\begin{aligned} \widehat{\beta}_S&=\left(\mu_{PV}\mathbf{I}_n+\sigma_{HM}^2\mathbf{1}_n\mathbf{1}_n^\prime\right)^{-1}\sigma_{HM}^2\mathbf{1}_n =\frac{1}{n+k}\mathbf{1}_n. \end{aligned} \\ \\ &\widehat{\beta}_0=\mu_X-\mu_X\sum_{i=1}^n\widehat\beta_i=\frac{k}{n+k}\mu_X. \end{aligned} \]

于是 \(X_{n+1}\) 的预测值为

\[\widehat{X}_{n+1}=\widehat{\beta}_0+\widehat{\beta}_S^\prime X=\frac{n}{n+k}\bar{X}+\frac{k}{n+k}\mu_X\xlongequal{def}z\bar{X}+(1-z)\mu_X. \]

其中

\[k=\frac{\mu_{PV}}{\sigma_{HM}^2},\qquad z=\frac{n}{n+k}. \]

我们将 \(\mu_{PV}\) 和 \(\sigma_{HM}^2\) 的比例 \(k\) 称为 Bühlmann 信度参数，将 \(z\) 称为 Bühlmann 信度因子。显然，信度因子 \(z\) 依赖于样本量的大小 \(n\) 以及信度参数 \(k\) 。

当 \(k\) 较大时，各组别间风险均值一致，差异不明显，此时信度因子 \(z\) 较小，即下一期保费的预测依赖于现有数据的权重较小。

当 \(k\) 较小时，各组别间风险均值差异明显，此时信度因子 \(z\) 较大，即下一期保费的预测依赖于现有数据的权重较大。

例如：假设索赔次数 \(X\sim P(\lambda)\) ，其先验分布为 \(\Lambda\sim\Gamma(\alpha,\beta)\) 。现有 \(n\) 个样本 \(X_1,X_2,\cdots,X_n\) ，给出下一年索赔次数的信度估计。

计算索赔的均值：

\[\mu_X=\mathbb{E}\left[X\right]=\mathbb{E}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=\alpha\beta. \]
计算索赔的组内方差和组间方差：

\[\begin{aligned} &\mathbb{E}\left[X\mid\Lambda\right]=\Lambda ,\quad {\rm Var}\left[X\mid\Lambda\right]=\Lambda. \\ \\ &\mu_{PV}=\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=\alpha\beta, \\ \\ &\sigma^2_{HM}={\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]={\rm Var}(\Lambda)=\alpha\beta^2. \end{aligned} \]
计算信度因子的估计：

\[\begin{aligned} &k=\frac{\mu_{PV}}{\sigma^2_{HM}}=\frac{\alpha\beta}{\alpha\beta^2}=\frac1\beta, \\ \\ &z=\frac{n}{n+k}=\frac{n\beta}{n\beta+1}. \end{aligned} \]
计算下一年索赔次数的信度估计：

\[\widehat{X}_{n+1}=z\bar{X}+(1-z)\mu_X=\frac{n\beta}{n\beta+1}\bar{X}+\frac{1}{n\beta+1}\alpha\beta. \]
注意：比较贝叶斯方法，两者的估计完全一致。

三、Bühlmann-Straub 模型

在 Bühlmann 模型中，我们假设索赔额 \(X_i\) 具有相同的方差，即 \({\rm Var}\left[X_i\mid\theta\right]=\sigma_X^2(\theta)\) 。接下来我们讨论异方差的情形。这里我们需要给出一个异方差形式的构造，即 Bühlmann-Straub 模型。

(1) 模型假设

假设 \(X_i\) 是第 \(i\) 年每份保单的平均索赔额，设 \(m_i\) 是第 \(i\) 年保单的数量，则

\[X_i=\frac{1}{m_i}\sum_{j=1}^{m_i}X_{ij}, \]

在给定 \(\Theta=\theta\) 的条件下，保单索赔额 \(X_{ij}\) 相互独立同分布，与 \(X\) 具有相同的分布，每份保单索赔额的条件均值和条件方差仍为 \(\mu_X(\Theta)\) 和 \(\sigma_X^2(\Theta)\) 。

在给定 \(\Theta=\theta\) 的条件下，平均索赔额的条件均值和条件方差为

\[\mathbb{E}\left[X_i\mid\theta\right]=\mu_X(\theta),\quad {\rm Var}\left[X_i\mid\theta\right]=\frac{\sigma_X^2(\theta)}{m_i},\quad i=1,2,\cdots,n. \]

于是 \(X_i\) 的方差可以分解为

\[\begin{aligned} &\mathbb{E}\left[{\rm Var}\left(X_i\mid\Theta\right)\right]=\mathbb{E}\left[\frac{\sigma_X^2(\Theta)}{m_i}\right]=\frac{\mu_{PV}}{m_i},\quad i=1,2,\cdots,n. \\ \\ &{\rm Var}\left[\mathbb{E}\left(X_i\mid\Theta\right)\right]={\rm Var}\left[\mu_X(\Theta)\right]=\sigma_{HM}^2,\quad i=1,2,\cdots,n. \end{aligned} \]

(2) 参数估计

我们的目标是给出风险 \(X\) 下一期索赔额 \(X_{n+1}\) 的估计。假设风险模型不变，即 \(X_{n+1}\) 也满足上面的假设。计算 \(X_{n+1}\) 的线性估计，即

\[\widehat{X}_{n+1}=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_nX_n, \]

以极小化 \(\widehat{X}_{n+1}\) 与 \(X_{n+1}\) 的均方误差为目标，和 Bühlmann 模型完全一致，但方差和协方差的估计有所变化，即

\[\begin{aligned} &\begin{aligned} \widehat\beta_S&=\begin{bmatrix} {\rm Var}(X_1) & {\rm Cov}(X_1,X_2) & \cdots & {\rm Cov}(X_1,X_n) \\ {\rm Cov}(X_1,X_2) & {\rm Var}(X_2) & \cdots & {\rm Cov}(X_2,X_n) \\ \vdots & \vdots & & \vdots \\ {\rm Cov}(X_1,X_n) & {\rm Cov}(X_2,X_n) & \cdots & {\rm Var}(X_n) \\ \end{bmatrix}^{-1} \begin{bmatrix} {\rm Cov}(X_1,X_{n+1}) \\ {\rm Cov}(X_2,X_{n+1}) \\ \vdots \\ {\rm Cov}(X_n,X_{n+1}) \end{bmatrix}. \end{aligned} \\ \\ \\ &\begin{aligned} \widehat{\beta}_0 &=\mu_X-\mu_X\sum_{i=1}^n\widehat{\beta}_i. \end{aligned} \end{aligned} \]

其中，方差和协方差的估计为

\[\begin{aligned} &{\rm Var}\left[X_i\right]=\frac{\mu_{PV}}{m_i}+\sigma_{HM}^2,\quad i=1,2,\cdots,n, \\ \\ &{\rm Cov}(X_i,X_j)=\sigma_{HM}^2 ,\quad i\neq j. \end{aligned} \]

于是 \(\widehat\beta_S\) 可以进一步表示为

\[\widehat\beta_S=\left(V+\sigma_{HM}^2\mathbf{1}_n\mathbf{1}_n^\prime\right)^{-1}\left(\sigma_{HM}^2\mathbf{1}_n\right). \]

其中

\[V={\rm diag}\left(\frac{\mu_{PV}}{m_1},\frac{\mu_{PV}}{m_2},\cdots,\frac{\mu_{PV}}{m_n}\right). \]

记 \(\boldsymbol{m}=(m_1,m_2,\cdots,m_n)^\prime\) ，以及

\[m=\sum_{i=1}^nm_i=\mathbf{1}_n^\prime\boldsymbol{m}. \]

由矩阵求逆公式可得

\[\left(V+\sigma^2_{HM}\mathbf{1}_n\mathbf{1}_n^\prime\right)^\prime=V^{-1}-\frac{\sigma_{HM}^2\left(V^{-1}\mathbf{1}_n\right)\left(\mathbf{1}_n^\prime V^{-1}\right)}{1+\sigma_{HM}^2\mathbf{1}_n^\prime V^{-1}\mathbf{1}_n}=V^{-1}-\frac{1}{\mu_{PV}}\left(\frac{\sigma_{HM}^2\boldsymbol{m}\boldsymbol{m}^\prime}{\mu_{PV}+m\sigma^2_{HM}}\right). \]

所以 \(\widehat\beta_S\) 可以展开得

\[\widehat\beta_S=\left[V^{-1}-\frac{1}{\mu_{PV}}\left(\frac{\sigma_{HM}^2\boldsymbol{m}\boldsymbol{m}^\prime}{\mu_{PV}+m\sigma^2_{HM}}\right)\right]\left(\sigma_{HM}^2\mathbf{1}_n\right)=\frac{\sigma_{HM}^2\boldsymbol{m}}{\mu_{PV}+m\sigma^2_{HM}}. \]

注意到，此时的样本均值应该是所有年份的全体保单的索赔额的均值，因此有

\[\bar{X}=\frac1{m}\sum_{i=1}^n\sum_{j=1}^{m_i}X_{ij}=\frac{1}{m}\sum_{i=1}^nm_iX_i=\frac{1}{m}\boldsymbol{m}^\prime X. \]

仍然记信度参数 \(k=\mu_{PV}/\sigma^2_{HM}\) ，于是有

\[\begin{aligned} &\widehat\beta_S^\prime X=\frac{\sigma_{HM}^2\boldsymbol{m}^\prime X}{\mu_{PV}+m\sigma^2_{HM}}=\frac{m}{m+k}\bar{X}\xlongequal{def}z\bar{X}, \\ \\ &\widehat\beta_0=\mu_X-\mu_X\sum_{i=1}^n\widehat\beta_i=(1-z)\mu_X. \end{aligned} \]

其中，信度因子为

\[z=\frac{m}{m+k}. \]

最后计算 \(X_{n+1}\) 的估计为

\[\widehat{X}_{n+1}=\widehat\beta_0+\widehat\beta_S^\prime X=z\bar{X}+(1-z)\mu_X, \]

即为 Bühlmann-Straub 模型最小均方误差线性估计。

假设每年每个被保险人发生索赔的次数服从二项分布 \(B(2,\theta)\) ，索赔的发生相互独立。参数 \(\theta\) 服从参数为 \(\alpha=1,\beta=10\) 的贝塔分布，并收集到如下 \(4\) 年的资料：

\[\begin{array}{c|c|c} \hline \text{Year} & \text{Number of insureds} & \text{Number of claims} \\ \hline 1 & 100 & 7 \\ 2 & 200 & 13 \\ 3 & 250 & 18 \\ 4 & 280 & \\ \hline \end{array} \]
利用 Bühlmann-Straub 模型估计第四年的索赔数。

由模型假设可知

\[\begin{aligned} &\mathbb{E}\left[X_i\mid\Theta\right]=\frac1{m_i}\sum_{j=1}^{m_i}\mathbb{E}\left[X_{ij}\mid\Theta\right]=2\Theta. \\ \\ &\sigma_{HM}^2={\rm Var}\left[\mathbb{E}\left(X_i\mid\Theta\right)\right]={\rm Var}(2\Theta)=4{\rm Var}(\Theta). \\ \\ &{\rm Var}\left[X_i\mid\Theta\right]=\frac{1}{m_i^2}\sum_{j=1}^{m_i}{\rm Var}\left[X_{ij}\mid\Theta\right]=\frac{2\Theta(1-\Theta)}{m_i}, \\ \\ &\mu_{PV}=m_i\cdot\mathbb{E}\left[{\rm Var}\left(X_i\mid\Theta\right)\right]=2\mathbb{E}\left[\Theta(1-\Theta)\right]. \end{aligned} \]
由 \(\Theta\sim{\rm Be}(1,10)\) 可知

\[\begin{aligned} &\mathbb{E}\left[\Theta\right]=\frac{\alpha}{\alpha+\beta}=\frac{1}{11}=0.0909, \\ \\ &{\rm Var}\left(\Theta\right)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}=\frac{10}{11\times11\times12}=0.006887. \end{aligned} \]
所以

\[\begin{aligned} &\mu_{PV}=2\mathbb{E}\left[\Theta\right]-2\mathbb{E}\left[\Theta^2\right]=0.1515, \\ \\ &\sigma_{HM}^2=4\times0.006887=0.027548. \\ \\ &k=\frac{\mu_{PV}}{\sigma_{HM}^2}=\frac{0.1515}{0.027548}=5.5. \end{aligned} \]
由前三年的数据可知

\[\begin{aligned} &m=100+200+250=550 , \\ \\ &z=\frac{m}{m+k}=0.9901 , \\ \\ &\mu_X=2\mathbb{E}\left[\Theta\right]=\frac2{11}=0.1818, \\ \\ &\bar{X}=\frac{7+13+18}{550}=0.0691. \end{aligned} \]
所以

\[\widehat{X}_{4}=z\bar{X}+(1-z)\mu_X=0.9901\times0.0691+(1-0.9901)\times0.1818=0.0702. \]
于是第四年每份保单索赔次数的预测为 \(280\times0.0702\approx20\) 。

第四节 Bühlmann 信度统计模型

一、模型假设及其解释

以上我们对 Bühlmann 信度的讨论，都是从方差分量模型出发给出的信度因子的估计，这是一种根据总体特征给出的估计方法。事实上，我们还可以从统计模型的角度出发，根据样本特征进行参数估计和假设检验，并基于方差分析技术给出 Bühlmann 信度因子的估计。

假设随机变量 \(X_{jt}\) 表示第 \(j\) 个保险合同在第 \(t\) 次的索赔额，其中 \(j=1,2,\cdots,J,\ t=1,2,\cdots,T\) 。

假设索赔额的模型为

\[X_{jt}=m+\varepsilon_j+\varepsilon_{jt} ,\quad j=1,2,\cdots,J,\quad t=1,2,\cdots,T. \]

假设模型满足如下条件：随机误差 \(\{\varepsilon_j\}\) 与 \(\{\varepsilon_{jt}\}\) 是两个独立的随机变量序列：

\(\{\varepsilon_j\}\) 对所有的 \(j\) 是独立同分布的随机误差，满足 \(\mathbb{E}\left[\varepsilon_j\right]=0,\ {\rm Var}\left[\varepsilon_j\right]=a\) ；
\(\{\varepsilon_{jt}\}\) 对所有的 \(j\) 和 \(t\) 均是独立同分布的随机误差，满足 \(\mathbb{E}\left[\varepsilon_{jt}\right]=0,\ {\rm Var}\left[\varepsilon_{jt}\right]=s^2\) 。

由此可以得到 \(X_{jt}\) 的方差为

\[{\rm Var}\left[X_{jt}\right]={\rm Var}\left[\varepsilon_{j}\right]+{\rm Var}\left[\varepsilon_{jt}\right]=a+s^2. \]

下面我们将给出模型的解释，即随机误差 \(\{\varepsilon_j\}\) 与 \(\{\varepsilon_{jt}\}\) 的来源。

假设索赔额 \(X_{jt}\) 依赖于某个参数 \(\Lambda_j\) ，则索赔额 \(X_{jt}\) 可以作如下的分解：

\[\begin{aligned} X_{ij}&=m+\left(\mathbb{E}\left[X_{ij}\mid\Lambda_j\right]-m\right)+\left(X_{jt}-\mathbb{E}\left[X_{ij}\mid\Lambda_j\right]\right) \\ \\ &\xlongequal{def}m+\varepsilon_j+\varepsilon_{jt} . \end{aligned} \]

随机变量 \(X_{jt}\) 是第 \(j\) 个保险合同在第 \(t\) 次的索赔额，模型中的 \(m=\mathbb{E}\left[X_{jt}\right]\) 表示总平均，它等于该保单组合的平均索赔额，参数 \(\Lambda_j\) 独立同分布，并假设与 \(\Lambda\) 具有相同的分布。
随机误差 \(\varepsilon_j=\mathbb{E}\left[X_{jt}\mid\Lambda_j\right]-m\) 表示第 \(j\) 个合同的索赔均值与总索赔均值之间的偏差，即 \(\varepsilon_j\) 刻画了同一险种内不同合同之间的索赔波动，称 \(\varepsilon_j\) 的分布为结构分布：

\[\begin{aligned} &\mathbb{E}\left[\varepsilon_j\right]=\mathbb{E}\left[\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)-m\right]=0. \\ \\ &{\rm Var}\left[\varepsilon_j\right]={\rm Var}\left[\mathbb{E}\left(X_{ij}\mid\Lambda_j\right)-m\right]=a. \end{aligned} \]
随机误差 \(\varepsilon_{jt}=X_{jt}-\mathbb{E}\left[X_{jt}\mid\Lambda_j\right]\) 表示索赔额的随机波动

\[\begin{aligned} &\mathbb{E}\left[\varepsilon_{jt}\right]=\mathbb{E}\left[X_{jt}-\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)\right]=0. \\ \\ &{\rm Var}\left[\varepsilon_{jt}\right]={\rm Var}\left[X_{jt}-\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)\right]=s^2. \end{aligned} \]

我们将 \({\rm Var}\left[\varepsilon_j\right]\) 称为组间方差，将 \({\rm Var}\left[\varepsilon_{jt}\right]\) 称为组内方差。注意 \(\varepsilon_j\) 与 \(\varepsilon_{jt}\) 不独立，但不相关，即

\[\begin{aligned} \mathbb{E}\left[\varepsilon_{j}\varepsilon_{jt}\right]&=\mathbb{E}\left[\mathbb{E}\left[\varepsilon_{j}\varepsilon_{jt}\mid\Lambda_j\right]\right] \\ \\ &=\mathbb{E}\left[\mathbb{E}\left[\left(\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)-m\right)\left(X_{jt}-\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)\right)\mid\Lambda_j\right]\right]=0. \end{aligned} \]

此外，对于 \(s\neq t\) 也有 \(\varepsilon_{js}\) 与 \(\varepsilon_{jt}\) 不独立，但不相关。

故模型的条件可以减弱为：随机误差 \(\{\varepsilon_j\}\) 与 \(\{\varepsilon_{jt}\}\) 是两个不相关的随机变量序列：

\(\{\varepsilon_j\}\) 对所有的 \(j\) 是不相关的分布相同的随机误差，满足 \(\mathbb{E}\left[\varepsilon_j\right]=0,\ {\rm Var}\left[\varepsilon_j\right]=a\) ；
\(\{\varepsilon_{jt}\}\) 对所有的 \(j\) 和 \(t\) 均是不相关的分布相同的随机误差，满足 \(\mathbb{E}\left[\varepsilon_{jt}\right]=0,\ {\rm Var}\left[\varepsilon_{jt}\right]=s^2\) 。

二、索赔额的齐次线性无偏估计

根据经验，在均方误差极小的意义下，我们希望找到一个齐次线性无偏估计，即对于线性估计

\[\widehat{X}_{i(T+1)}=\sum_{j=1}^J\sum_{t=1}^Tg_{jt}X_{jt} , \quad i=1,2,\cdots,J, \]

要找到一组 \(\left\{g_{jt}:j=1,2,\cdots,J,t=1,2,\cdots,T\right\}\) ，满足

\[\begin{aligned} \min\qquad & \mathbb{E}\left[{X}_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2 , \\ \\ {\rm s.t.}\qquad & \mathbb{E}\left[\widehat{X}_{i(T+1)}\right]=m . \end{aligned} \]

定理：在模型及其假设下，以及在均方误差极小的意义下，\(X_{i(T+1)}\) 的线性无偏估计为

\[\widehat{X}_{i(T+1)}=z\bar{X}_i+(1-z)\bar{X}. \]

其中 \(z\) 称为最优信度因子，\(\bar{X}\) 是整体均值估计量，\(\bar{X}_i\) 是第 \(i\) 个险种的组内均值估计量，满足

\[\begin{aligned} z=\frac{aT}{aT+s^2} , \quad \bar{X}=\frac{1}{JT}\sum_{j=1}^J\sum_{t=1}^TX_{jt} ,\quad \bar{X}_i=\frac1T\sum_{t=1}^TX_{it}. \end{aligned} \]

设线性无偏估计为

\[\widehat{X}_{i(T+1)}=\sum_{j=1}^J\sum_{t=1}^Tg_{jt}X_{jt} , \quad i=1,2,\cdots,T, \]
由独立同分布假设，对于任意的 \(i\neq l\) 和 \(i\neq j\) ，当 \(l\neq j\) 时，随机变量 \(X_{lt}\) 和 \(X_{jt}\) 是可互换的。

由对称性，在最优的时候，所有的 \(g_{lt},\ l\neq i\) 必须相同，于是可以将线性无偏估计写为

\[\widehat{X}_{i(T+1)}\equiv\sum_{t=1}^T{\color{red} g_{1t}} X_{it}+\sum_{j\neq i}\sum_{t=1}^T{\color{red} g_{2t}}X_{jt} . \]
对 \(g_{it},t=1,2,\cdots,T\) 作同样的讨论，于是

\[\begin{aligned} \widehat{X}_{i(T+1)}&\equiv{\color{red} g_{1}} \sum_{t=1}^TX_{it}+{\color{red} g_{2}}\sum_{j\neq i}\sum_{t=1}^TX_{jt} \\ \\ &=g_1T\bar{X}_i+g_2JT\bar{X}-g_2T\bar{X}_i \\ \\ &=(g_1-g_2)T\bar{X}_i+g_2JT\bar{X}. \end{aligned} \]
由于无偏性的限制，所以有

\[\mathbb{E}\left[\widehat{X}_{i(T+1)}\right]=\mathbb{E}\left[X_{i(T+1)}\right]=m, \]
并且由于

\[\mathbb{E}\left[\bar{X}_i\right]=m,\quad \mathbb{E}\left[\bar{X}\right]=m, \]
因此有

\[\mathbb{E}\left[(g_1-g_2)T\bar{X}_i+g_2JT\bar{X}\right]=(g_1-g_2)Tm+g_2JTm=m, \\ \\ \Longrightarrow \quad (g_1-g_2)T+g_2JT=1. \]
令 \(z=(g_1-g_2)T\) ，则 \(g_2JT=1-z\) ，因此具有最小均方误差的齐次线性估计量的形式如下：

\[\widehat{X}_{i(T+1)}=z\bar{X}_i+(1-z)\bar{X}. \]
均方误差可以改写为

\[\begin{aligned} \mathbb{E}\left[X_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2&=\mathbb{E}\left[X_{i(T+1)}-z\bar{X}_i-(1-z)\bar{X}\right]^2 \\ \\ &=\mathbb{E}\left[X_{i(T+1)}-\bar{X}-z\left(\bar{X}_i-\bar{X}\right)\right]^2 \\ \\ &=\mathbb{E}\left[X_{i(T+1)}-\bar{X}\right]^2+z^2\mathbb{E}\left[\bar{X}_i-\bar{X}\right]^2 \\ \\ &\quad \;-2z\mathbb{E}\left[\left(X_{i(T+1)}-\bar{X}\right)\left(\bar{X}_i-\bar{X}\right)\right]. \end{aligned} \]
由于 \(\mathbb{E}\left[X_{i(T+1)}-\bar{X}\right]=0,\ \mathbb{E}\left[\bar{X}_i-\bar{X}\right]=0\) ，所以

\[\begin{aligned} \mathbb{E}\left[X_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2&={\rm Var}\left[X_{i(T+1)}-\bar{X}\right]+z^2{\rm Var}\left[\bar{X}_i-\bar{X}\right]\\ \\ &\quad \;-2z{\rm Cov}\left[X_{i(T+1)}-\bar{X},\bar{X}_i-\bar{X}\right]. \end{aligned} \]
由二次函数的性质可知，当 \(z\) 取如下值时达到最小：

\[z=\frac{{\rm Cov}\left[X_{i(T+1)}-\bar{X},\bar{X}_i-\bar{X}\right]}{{\rm Var}\left[\bar{X}_i-\bar{X}\right]}. \]
由模型的假设计算可得

\[\begin{aligned} &{\rm Cov}\left[X_{it},X_{iu}\right]=a ,\quad t\neq u , \\ \\ &{\rm Var}\left[X_{it}\right]=a+s^2 , \\ \\ &{\rm Cov}\left[X_{it},\bar{X}_i\right]={\rm Var}\left[\bar{X}_i\right]=a+\frac{s^2}{T}, \\ \\ &{\rm Cov}\left[\bar{X}_i,\bar{X}\right]={\rm Var}\left[\bar{X}\right]=\frac1J\left(a+\frac{s^2}{T}\right). \end{aligned} \]
由此可得

\[z=\frac{aT}{aT+s^2}. \]

由信度因子 \(z\) 的表达式可知，信度因子 \(z\) 具有以下的渐近性质：

如果 \(T\to\infty\) ，则 \(z\to1\) ，说明理赔记录越多，对保费的预测的把握越大。
如果 \(a\downarrow 0\) ，则 \(z\downarrow 0\) ，即各组别险种的保单的保费均可以由 \(\bar{X}\) 统一给出，不需要分组估计。
如果 \(a\to\infty\) ，则 \(z\to1\) ，即其他险种数据不提供任何关于第 \(i\) 个险种的信息。
如果 \(s^2\to\infty\) ，则 \(z\to 0\) ，即误差的方差充分大，则分组的信息对保费的预测没有参考价值，因此可以用 \(\bar{X}\) 统一给出下一期索赔的预测。

注意到，对于一组索赔额样本 \(\{X_{jt},j=1,2,\cdots,J,t=1,2,\cdots,T\}\) ，只有当 \(s^2/a\) 已知时，信度因子 \(z\) 才可以计算。如果 \(s^2/a\) 未知，我们需要首先根据这组样本给出参数 \(m,s^2\) 和 \(a\) 的估计。记

\[\begin{aligned} &\bar{X}=\frac{1}{JT}\sum_{j=1}^J\sum_{t=1}^TX_{jt} ,\quad \bar{X}_i=\frac1T\sum_{t=1}^TX_{it} \\ \\ &MSB=\frac{1}{J-1}\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2, \\ \\ &MSW=\frac{1}{J(T-1)}\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2. \end{aligned} \]

经计算可得

\[\mathbb{E}\left[MSB\right]=aT+s^2 ,\quad \mathbb{E}\left[MSW\right]=s^2. \]

所以模型中的三个参数 \(m,s^2,a\) 的估计可以写为

\[\begin{aligned} &\widehat{m}=\bar{X}=\frac{1}{JT}\sum_{j=1}^J\sum_{t=1}^TX_{jt}, \\ \\ &\widehat{s}^2=MSW=\frac{1}{J(T-1)}\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2, \\ \\ &\widehat{a}=\frac{MSB-MSW}{T}. \end{aligned} \]

信度因子 \(z\) 的估计可以写为

\[\widehat{z}=\frac{MSB-MSW}{MSB}. \]

这里我们再讨论一个小问题：对于任意一组索赔额的样本，\(\widehat{a}>0\) 是否一定成立？答案是不一定，因此在实际中我们经常采用 \(\max\{0,\widehat{a}\}\) 作为 \(a\) 的估计。

关于 \(a\) 的非负性不是几乎处处成立的，我们可以用以下方法进行说明：

如果 \(\varepsilon_{it}\sim N(0,s^2)\) ，定义

\[SSW=\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2, \]
则有

\[\frac{SSW}{s^2}=\frac1{s^2}{\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2}=\frac1{s^2}{\sum_{j=1}^J\sum_{t=1}^T\left(\varepsilon_{jt}-\bar{\varepsilon}_j\right)^2}\sim\chi^2(J(T-1)). \]
如果 \(\varepsilon_j\sim N(0,a)\) ，定义

\[SSB=\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2, \]
则有

\[\frac{SSB}{aT+s^2}=\frac{1}{aT+s^2}\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2=\frac{1}{aT+s^2}\sum_{j=1}^JT\left(\bar{\varepsilon}_j-\bar{\varepsilon}\right)^2\sim\chi^2(J-1). \]
所以

\[F\xlongequal{def}\frac{1-z}{1-\widehat{z}}=(1-z)\frac{MSB}{MSW}=\frac{SSB/(a+s^2/T)}{SSW/s^2}\sim F(J-1,J(T-1)). \]
于是

\[\mathrm{Pr}\left(\widehat{a}<0\right)=\mathrm{Pr}\left(\frac{MSB}{MSW}<1\right)={\rm Pr}\left(F<1-z\right)\approx{\rm Pr}(F<1-\widehat{z})\geq0. \]

三、索赔额的非齐次线性无偏估计

在均方误差极小的意义下，我们也可以找到一个非齐次线性无偏估计，即对于线性估计

\[\widehat{X}_{i(T+1)}=g_{0}+\sum_{j=1}^J\sum_{t=1}^Tg_{jt}X_{jt} , \quad i=1,2,\cdots,J, \]

要找到一组 \(\left\{g_{jt}:j=1,2,\cdots,J,t=1,2,\cdots,T\right\}\cup\{g_0\}\) ，满足

\[\begin{aligned} \min\qquad & \mathbb{E}\left[{X}_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2 , \\ \\ {\rm s.t.}\qquad & \mathbb{E}\left[\widehat{X}_{i(T+1)}\right]=m . \end{aligned} \]

采用上面类似的方法，最佳非齐次线性无偏估计量可以改写为

\[\widehat{X}_{i(T+1)}=g_0+g_1\bar{X}_i+g_2\bar{X}, \]

满足 \(g_0=(1-g_1+g_2)m\) 。这里我们不加证明地给出如下定理。

定理：在模型及其假设下，如果采用非齐次线性无偏估计预测下一年的各险种的理赔 \(X_{i(T+1)}\) ，则在均方误差极小的意义下，\(X_{i(T+1)}\) 的最优预测是信度保费

\[\widehat{X}_{i(T+1)}=z\bar{X}_i+(1-z)m, \quad i=1,2,\cdots,J. \]

其中最优信度因子为

\[z=\frac{aT}{aT+s^2}. \]

第 \(i\) 个险种的平均值为

\[\bar{X}_i=\frac1T\sum_{t=1}^TX_{it}. \]

四、统计模型例题

假设我们有如下的 \(3\) 个组的 \(5\) 年的观测数据：

\[\begin{array}{c|c|c|c|c|c} \hline & t=1 & t=2 & t = 3 & t = 4 & t=5 & \bar{X}_j \\ \hline j=1 & 99.3 & 93.7 & 103.9 & 92.5 & 110.6 & 100.0 \\ j = 2 & 112.3 & 108.3 & 118.0 & 99.4 & 111.8 & 110.0 \\ j = 3 & 129.2 & 140.9 & 108.3 & 105.0 & 116.6 & 120.0 \\ \hline \end{array} \]
采用方差分析，计算可以得出

\[F=4.6 \geq F_{0.95}(2,12)=3.89, \]
表明每组的平均索赔额不完全相等。

下面计算信度因子的估计：

\[\begin{aligned} &MSB=\frac{1}{J-1}\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2=500, \\ \\ &MSW=\frac{1}{J(T-1)}\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2=108.97, \\ \\ &\widehat{z}=\frac{500-108.97}{500}=0.782. \end{aligned} \]
经计算可得：

\[\bar{X}=110,\quad \bar{X}_1=100,\quad \bar{X}_2=110,\quad \bar{X}_3=120. \]
下面计算下一期的保费预测：

\[\begin{aligned} &i=1, & \widehat{X}_{1,6}=\widehat{z}\bar{X}_1+\left(1-\widehat{z}\right)\bar{X}=102.18, \\ \\ &i=2, & \widehat{X}_{2,6}=\widehat{z}\bar{X}_2+\left(1-\widehat{z}\right)\bar{X}=110.00, \\ \\ &i=3, & \widehat{X}_{3,6}=\widehat{z}\bar{X}_3+\left(1-\widehat{z}\right)\bar{X}=117.82. \end{aligned} \]
最后估算一下 \(\widehat{a}<0\) 的概率：由 \(1-\widehat{z}=0.218\) 可知

\[\mathrm{Pr}\left(\widehat{a}<0\right)\approx{\rm Pr}\left(F(2,12)<0.218\right)=0.1928. \]

posted @ 2022-05-25 14:09 这个XD很懒阅读(1429) 评论(0) 收藏举报

刷新页面返回顶部

这个XD很懒