数学建模--医疗保险欺诈的发现--模型:评价类的数学模型和多元统计模型--方法:”改进的”主成分分析,聚类分析,判别分析,相关分析
东北三省数学建模竞赛,省一等奖,我主要负责模型的建立和求解。版权所有,转载请注明出处。
A题:医保欺诈行为的主动发现
摘 要
针对近年来中国医保制度的完善,医保医疗保险基金积累,在享受医疗保险的过程中可能存在一定的医疗欺诈行为,需要我们从给出的数据中找出可能的欺诈记录。本文提供了两种有效的找出欺诈记录的模型:评价类数学模型和多元统计分析模型。
本文(1)使用评价类数学模型,采用改进的主成分分析法,从明细指标中提取主成分,主成分很好地保留了明细指标所携带的信息,我们建立了一个综合评价函数,该主函数的涉及到的主成分有病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。从而得到综合评价值,所给的数据求出的综合评价值的范围是-4.78708--26.49655,从而建立综合评价标准(MIF);(2)使用多元统计模型,采用系统聚类法进行聚类分析,对新加入的数据用SPSS画出聚类分析图,从而判定新加入的数据属于综合评价标准的哪一个等级;(3)使用多元统计分析模型,为了说明我们的结果有效可信,采用判别分析法中的马氏距离判别法,Fisher判别法和Bayes判别法,进行判定医疗保险记录属于哪个分类等级。同时得到相关系数得分,来验证综合评价值的准确性,因此我们认为用综合评价标准(MIF)对医疗保险明细进行分级是合理和科学,然后根据错判概率确定可能存在欺诈记录属于哪种分类级别,我们来确定哪种欺诈性质。
最后,本文对两种模型进行了比较,并对它们的优缺点进行分析,提出了改进方向。
文中分别利用上述模型对可能存在的欺诈记录进行了分级,把欺诈分为不可能存在欺诈,可能存在欺诈,存在一般欺诈,存在严重欺诈,见表1;欺诈的判断结果见附录Ⅲ。
表1 医疗保险欺诈的综合评价标准(MIF)
综合评价标准 |
>=21 |
11-20 |
1-10 |
<=1 |
分类等级 |
4 |
3 |
2 |
1 |
欺诈的性质 |
存在严重欺诈 |
存在一般欺诈 |
可能存在欺诈 |
不可能存在欺诈 |
关键字:改进主成分分析 综合评价标准 多元统计分析模型 判别分析 相关分析
。。。。。。。。
。。。。。。
。。。
。。。
3.模型假设
1.所有表征和影响变化的明细指标都是在医疗保险基金系统下确定的;
2.不考虑医保卡拥有人年龄;
3.假设不考虑主观因素对欺诈明细指标的影响
4.病人的基本资料,费用明细表等相关表间的一个指标明细不会影响另外一个指标明细
5.不考虑在信息数据的统计与录入上的存在问题
6.假设表中所给的统计数据的明细具有一定的代表性
7.假设问题中明细指标都可以反映实际情况
4.模型Ⅰ:改进的主成分分析法数学模型
本小节,我们要处理的问题是建立了一个综合评价函数,从而得到综合评价值,从而建立综合评价标准(MIF)。对可能存在的欺诈记录进行了分级,把欺诈分为不可能存在欺诈,可能存在欺诈,存在一般欺诈,存在严重欺诈。分为4个部分:1.符号约定,2.模型建立,3.模型求解,4.结果分析。
4.1符号约定
:明细指标中第个数据的第项明细指标
:医疗保险明细指标向量
:最小负数的相反数
:为样本平均值
:为标准差
:表示方差贡献率
:表示累积贡献率。
:综合评价函数,即综合评价指标
:为明智指标提出来的主成分值。
:表示第个原始明细指标对第个主成分的荷载值
:表示第个主成分的协方差
4.2 模型建立
1.医疗保险明细指标欺诈的提取基于题目中所给的明细指标数量太多,我们舍弃了医疗保险的无关明细指标,选取医疗保险中相关的明细指标作为判断医疗保险欺诈的属性值。分别为:流水号,病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。
传统的主成分分析是一种线性降维技术,但是本文中医疗保险明细指标呈现非线性,主成分分析的降维效果不理想,甚至出现评价偏差很大的结果。为此,我们通过对传统主成分进行改进,使其适用于非线性数据。
2.数据的线性化改进
在对数据进行标准化处理之前,为了防止矩阵中的数据为非正数,可以将所有数据加上一个略小于最小负数的相反数,这样平移不会改变结果,按平移后的矩阵进行如下对数变换:
通过对医疗保险明细指标的计算,我们将原始数据与线性化处理后的原始数据进行对比,可以看到在累积贡献率方面,传统方法要选择前五个达到83%,而改进的主成分分析法只需要选择前面的四个就能达到84%以上的累积贡献率,同时改进前第一主成分的贡献率为1.688,改进后的第一主成分的贡献率达到2.078,几乎是传统方法前两个主成分之和。这说明对初始数据进行线性化处理具有一定的优越性。改进前后的主成分累积贡献率对比见表4-1。
表4-1 改进前后的主成分累积贡献率对比 |
||||||
成份 |
初始特征值(改进前) |
初始特征值(改进后) |
||||
合计 |
方差的 % |
累积 % |
合计 |
方差的 % |
累积 % |
|
1 |
1.688 |
24.111 |
24.111 |
2.078 |
27.111 |
29.111 |
2 |
1.280 |
18.289 |
42.400 |
1.580 |
20.209 |
52.400 |
3 |
1.120 |
16.006 |
58.406 |
1.363 |
18.506 |
68.406 |
4 |
1.013 |
14.473 |
72.880 |
1.113 |
16.273 |
84.880 |
5 |
.838 |
11.979 |
84.858 |
|
|
|
6 |
.683 |
9.760 |
94.618 |
|
|
|
7 |
.377 |
5.382 |
100.000 |
|
|
|
提取方法:主成份分析。 |
3.医疗保险明细指标主成分的提取与综合评价函数
主成分分析是一种降维的统计方法,它的工作目标是在力求数据信息丢失最少的原则下,对高维变量空间进行降维处理,在降低计算复杂度的同时又不失计算的准确性。它的主要步骤如下:
(1)为了消除量纲的影响,首先需要将原始数据进行标准化。以医疗保险明细指标为例,医疗保险明细指标向量为,对数据进行如下的标准化变换:
其中,为样本平均值,;为标准差,;于是得到标准化矩阵。
(2)求出标准化矩阵的相关系数矩阵
(3)解相关矩阵的特征方程,得到个特征根,计算各主成分的方差贡献率和累积贡献率,用表示方差贡献率,表示累积贡献率。
根据累积贡献率的大小在保证数据累积贡献率超过80%的前提下,选取最少的m个主成分。
(4)构造综合评价函数,即综合评价指标。评价函数可表示为
其中,为提出来的主成分值。
4.3模型求解
正文中我们以医疗保险明细指标为例研究判定医疗保险欺诈之间的关系,主成分分析中每个原始指标对主成分的信息量提供反映在主成分荷载矩阵见表4-2,公因子方差见表4-3。
表4-2 医疗保险明细指标主成份荷载矩阵a |
|||||
|
成份 |
|
|||
|
1 |
2 |
3 |
4 |
|
流水号 |
.142 |
-.300 |
.690 |
-.083 |
|
病人科室 |
-.085 |
.488 |
-.588 |
-.050 |
|
医嘱子类 |
-.381 |
.252 |
.253 |
.735 |
|
单价 |
.693 |
.333 |
.118 |
.404 |
|
医嘱数量 |
-.198 |
.611 |
.402 |
-.538 |
|
费用 |
.762 |
.462 |
.111 |
-.061 |
|
核算分类 |
-.644 |
.437 |
.216 |
.082 |
|
提取方法 :主成分分析法。 |
|
||||
|
|
表4-3 公因子方差 |
||
|
初始 |
提取 |
流水号 |
1.000 |
.593 |
病人科室 |
1.000 |
.594 |
医嘱子类 |
1.000 |
.813 |
单价 |
1.000 |
.769 |
医嘱数量 |
1.000 |
.863 |
费用 |
1.000 |
.810 |
核算分类 |
1.000 |
.659 |
提取方法:主成份分析。 |
从表中可知:
(1)费用,核算分类,单价,医嘱子类在第一主成分中有较高的载荷,说明第一成分基本反映了这4个指标。
(2)医嘱数量,病人科室,费用,核算分类在第二主成分中较高的荷载,说明第二主成分基本反映了这4个指标。
(3)流水号,病人科室,医嘱数量在第三主成分中有较高的荷载。
(4)医嘱子类,医嘱数量,单价在第三主成分中有较高的荷载。
总之这7个指标在这四个主成分因子中都得到了很好的反映。
为了挑选出医疗保险明细指标中最具有影响力的明细指标,我们对每一个原始明细指标定义一个影响力因子,它的定义为
其中,表示第个原始明细指标对第个主成分的荷载值;表示第个主成分的协方差;。
根据影响力因子的大小我们对原始医疗保险明细指标进行了影响力评定,由于第一成分的协方差最大,所以它对影响因子的影响也较大,经过计算我们挑选了个影响因子较大的原始医疗保险明细指标,如表4-4所示。
表4-4 大影响因子及明细指标
明细指标 |
病人科室 |
医嘱子类 |
单价 |
医嘱数量 |
费用 |
核算分类 |
影响因子 |
0.594 |
0.813 |
0.769 |
0.863 |
0.810 |
0.659 |
利用主成分分析法中的综合评价函数
其中,表示类主成分的方差贡献率;为提取出来的个主成分值。
计算出多个流水账号的的得分,这个分数综合体现了客观因素医疗明细直指标在各个流水账号间的差异。得到表4-5
表4-5 明细指标分类等级与综合评价值结果
流水号 |
因子1得分 |
因子2得分 |
因子3得分 |
因子4得分 |
Y(综合评价值) |
39629128 |
33.57704 |
21.4767 |
8.77449 |
19.63547 |
26.49655 |
38761051 |
33.51887 |
21.63872 |
8.34834 |
19.69245 |
26.4299 |
38228382 |
33.48318 |
21.73814 |
8.08685 |
19.72742 |
26.38901 |
…… |
…… |
…… |
…… |
…… |
…… |
40017584 |
26.98308 |
18.96599 |
6.95949 |
0.82314 |
18.7669 |
40022135 |
20.96244 |
12.14692 |
6.55069 |
12.12521 |
16.40657 |
39921419 |
20.95569 |
12.16572 |
6.50125 |
12.13183 |
16.39884 |
…… |
…… |
…… |
…… |
…… |
…… |
39105002 |
13.3631 |
8.01966 |
3.37781 |
5.0676 |
9.819741 |
38196937 |
13.30225 |
8.18915 |
2.93204 |
5.1272 |
9.75003 |
38209912 |
13.5123 |
8.57873 |
3.09601 |
2.78695 |
9.521273 |
…… |
…… |
…… |
…… |
…… |
…… |
37798421 |
1.57724 |
1.90533 |
1.06745 |
-2.33781 |
0.999784 |
38364378 |
0.96632 |
2.24059 |
1.5016 |
-2.00468 |
0.999783 |
39252220 |
2.14275 |
0.94924 |
-0.26578 |
-0.64654 |
0.999727 |
38752021 |
-0.81093 |
0.1971 |
1.39297 |
-0.15508 |
-1.26722E-06 |
38229554 |
-0.76771 |
0.30258 |
1.11723 |
-0.07731 |
-1.56845E-06 |
40014234 |
-0.67437 |
-0.06496 |
1.18339 |
0.16705 |
-2.42833E-06 |
…… |
…… |
…… |
…… |
…… |
…… |
我们根据医疗保险明细指标对存在医疗保险欺诈可能进行分类,综合评价值在-4.78708---26.49655之间。根据统计学分组原则,分为4个等级:存在严重欺诈,存在一般欺诈,可能存在欺诈,不可能存在欺诈,见表4-6;由医疗保险明细指标的得分大小,由于数据量较大,所以我们随机选取每一个等级的二十项数据,不足的选取所有的数据,得到各个流水账号分类区间情况,见表4-7。
表4-6 医疗保险欺诈的综合评价标准(MIF)
综合评价标准 |
>=21 |
11-20 |
1-10 |
<=1 |
分类等级 |
4 |
3 |
2 |
1 |
欺诈的性质 |
存在严重欺诈 |
存在一般欺诈 |
可能存在欺诈 |
不可能存在欺诈 |
表4-7 分类等级结果
分类 等级 |
分类区间 |
流水账号 |
||||
4 |
>21 |
39629128 |
38195417 |
37031092 |
38480050 |
|
4 |
38761051 |
38076991 |
40016500 |
37912544 |
||
4 |
38228382 |
37606917 |
38935407 |
36542288 |
||
|
||||||
3 |
11---20 |
40017584 |
39657082 |
38605624 |
37617059 |
35814679 |
3 |
40022135 |
39631004 |
38345810 |
36711226 |
38483152 |
|
3 |
39921419 |
39418058 |
37377571 |
36257878 |
…… |
|
…… |
||||||
2 |
1---10 |
39105002 |
38071148 |
37620226 |
37797518 |
37797083 |
2 |
38196937 |
39531565 |
37800314 |
37797463 |
37797104 |
|
2 |
38209912 |
37767721 |
37797534 |
37797388 |
…… |
|
…… |
||||||
1 |
<1 |
37798421 |
39921382 |
39246465 |
38928716 |
38640459 |
1 |
38364378 |
39086790 |
37029862 |
38928448 |
39236177 |
|
1 |
39252220 |
39247359 |
39919228 |
39908026 |
…… |
|
1 |
38752021 |
38225560 |
39104503 |
39930711 |
39519026 |
|
1 |
38229554 |
39661190 |
37804554 |
39907528 |
39240902 |
|
1 |
40014234 |
39527358 |
37804571 |
38768325 |
…… |
|
…… |
4.4结果分析
根据问题所得到结论,我们有理由相信建立的明细指标的综合评价值能够成为判定医疗保险欺诈的等级标准。
假设我们不考虑客观原因,例如医疗保险卡的丢失和主动借给别人使用的影响, 综合评价值与相关系数评分呈现正相关,所以我们可以把流水号,病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。这几项的影响因子作为医疗保险的欺诈可能性判定的根据,根据算出的综合评价值。最后对应的等级标准判定属于哪个等级,从而确定该项消费记录是否存在医疗保险的欺诈。
5.模型Ⅱ:系统聚类分析法数学模型
本小节,我们要处理的问题是检验模型一的综合评价标准(MIF)。通过聚类分析,画出聚类图,判定所给的记录属于哪种分类分级,从而验证模型Ⅰ中的分类等级的科学合理。分为4个部分:1.符号约定,2.模型建立,3.模型求解,4.结果分析。
5.1 符号约定
:原来各类与新类之间的距离。
:分类对象
5.2 模型建立
类与类之间距离定义不同,产生不同的系统聚类法:最短距离法,最长距离法,中间距离法,重心法,类平均法,可变类平均法,可变法即离差平方和法。
原理:最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出 ,把分类对象和归并为一新类,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的阶的距离矩阵; 再从新的距离矩阵中选出最小者,把和归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。
。。。。。
。。。。。
。。。。。
6.模型Ⅲ:判别分析法数学模型
本小节,我们要处理的问题是验证综合评价标准的合理科学性,使用评价类数学模型,采用判别分析法中的马氏距离判别法,Fisher判别法和Bayes判别法,进行判定医疗保险记录属于哪个分类等级。同时得到相关系数得分,来验证综合评价值的准确性,然后根据错判概率确定可能存在欺诈记录属于哪种分类级别,我们来确定哪种欺诈性质。分为4个部分:1.符号约定,2.模型建立,3.模型求解,4.结果分析。
6.1 符号约定
: 个总体
:总体的均值
:协方差阵
:待测样本
6.2 模型建立
6.2.1距离判别法
距离判别法的基本思路是首先根据已知的分类数据计算各类的重心(均值),判别准则是对给的一类观测,若它与第 类重心最近,就认为它来自第 类,距离判别对总体分布没有特定要求。
多个总体的距离判别法
对于 个总体 ,假设其均值分别为: ,协方差阵分别为: ,(其中 ),待测样本为 ,其中 为样本 的 个检测指标,假设 的均值为 ,协方差为 ,判断 属于哪个总体。
当从 , 个总体中,取 个样本,分别记为 总体样本,再结合上面 个指标,这 个样本可以表6-1述如下:
表6-1 第j个总体样本(j=1,2…k)
变量指标
样本
…
…
…
… …
…
均值
…
(1)当待测样本与各总体样本的均值相等时,即
= ……= = ;
则相应的判别函数为:
(其中 , 表示 与 的马氏距离);
判断准则:如果对所有 有 成立,则 ,若存在 和 使得 成立,则待判。
当各样本总体的均值 和协方差阵 未知时,可以从 中抽取 ,i=1,2…k;则 和 的无偏估计 可以表示为:
,
)
(2)当各样本总体样本的均值不相等时,相应的判别函数为:
判别准则:若对所有 有 则 ,若存在 和 使得 成立,则待判。
6.2.2费歇(Fisher)判别法
(1)线性投影与Fisher准则函数
各类在 维特征空间里的样本均值向量:
, (4.5-2)
通过变换 映射到一维特征空间后,各类的平均值为:
, (4.5-3)
映射后,各类样本“类内离散度”定义为:
, (4.5-4)
显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher准则函数:
(4.5-5)
使 最大的解 就是最佳解向量,也就是Fisher的线性判别式。
(2)求解
从 的表达式可知,它并非 的显函数,必须进一步变换。
已知: , , 依次代入(4.5-1)和(4.5-2),有:
, (4.5-6)
所以:
(4.5-7)
其中: (4.5-8)
是原 维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此, 越大越容易区分。
将(4.5-6) 和(4.5-2) 代入(4.5-4) 式中:
(4.5-9)
其中: , (4.5-10)
因此: (4.5-11)
显然: (4.5-12)
称为原 维特征空间里,样本“类内离散度”矩阵。
是样本“类内总离散度”矩阵。
为了便于分类,显然 越小越好,也就是 越小越好。
将上述的所有推导结果代入 表达式:
可以得到:
其中, 是一个比例因子,不影响 的方向,可以删除,从而得到最后解:
(4.5-18)
就使 取得最大值, 可使样本由 维空间向一维空间映射,其投影方向最好。 是一个Fisher线性判断式。
这个向量指出了相对于Fisher准则函数最好的投影线方向。
6.2.3贝叶斯(Bayes)判别法
1. 设有总体 , 具有概率密度函数 。并且根据以往的统计分析,知道 出现的概率为 。即当样本 发生时,求 属于某类的概率。由贝叶斯公式计算后验概率,有:
则 判给 ,在正态的假定下, 为正态分布的
密度函数。
2.设有总体 , 具有概率密度函数 。并且根据以往的统计分析,知道 出现的概率为 , 。
是 的一个分划,判别法则为:
当样品X落入Di时,判
关键的问题是寻找 分划,这个分划应该使平均错判率最小。
6.3 模型求解
在运行SPSS后,可以得到一下结果。表6-2,表6-3显示系统处理数据的简明表。表6-4,共有6张为典型判别方程的方差分析结果,其特征值即组间平方和和组内平方和之比为4.121,典型相关系数为0.897,Wilks 的 为0.105,经过 的检验, 为653972.373, 。
表6-2 数据分析过程 |
|||
未加权案例 |
N |
百分比 |
|
有效 |
289799 |
100.0 |
|
排除的 |
缺失或越界组代码 |
0 |
.0 |
至少一个缺失判别变量 |
0 |
.0 |
|
缺失或越界组代码还有至少一个缺失判别变量 |
0 |
.0 |
|
合计 |
0 |
.0 |
|
合计 |
289799 |
100.0 |
表6-3 全局统计 |
|||||
分组 |
均值 |
标准差 |
有效的 N(列表状态) |
||
未加权的 |
已加权的 |
||||
1 |
病人科室 |
177.30 |
90.969 |
280201 |
280201.000 |
医嘱子类 |
16.69 |
10.304 |
280201 |
280201.000 |
|
单价 |
3.89 |
9.228 |
280201 |
280201.000 |
|
医嘱数量 |
34.75 |
46.925 |
280201 |
280201.000 |
|
费用 |
26.81 |
42.926 |
280201 |
280201.000 |
|
核算分类 |
1.81 |
.941 |
280201 |
280201.000 |
|
2 |
病人科室 |
202.24 |
99.898 |
9297 |
9297.000 |
医嘱子类 |
73.97 |
94.726 |
9297 |
9297.000 |
|
单价 |
43.54 |
81.409 |
9297 |
9297.000 |
|
医嘱数量 |
54.04 |
140.290 |
9297 |
9297.000 |
|
费用 |
240.71 |
213.854 |
9297 |
9297.000 |
|
核算分类 |
1.05 |
.224 |
9297 |
9297.000 |
|
3 |
病人科室 |
112.25 |
28.240 |
289 |
289.000 |
医嘱子类 |
11.03 |
4.382 |
289 |
289.000 |
|
单价 |
877.35 |
120.573 |
289 |
289.000 |
|
医嘱数量 |
1.18 |
2.356 |
289 |
289.000 |
|
费用 |
908.05 |
263.290 |
289 |
289.000 |
|
核算分类 |
1.00 |
.000 |
289 |
289.000 |
|
4 |
病人科室 |
79.42 |
61.277 |
12 |
12.000 |
医嘱子类 |
8.92 |
2.575 |
12 |
12.000 |
|
单价 |
1808.91 |
93.171 |
12 |
12.000 |
|
医嘱数量 |
1.00 |
.000 |
12 |
12.000 |
|
费用 |
1808.91 |
93.171 |
12 |
12.000 |
|
核算分类 |
1.00 |
.000 |
12 |
12.000 |
|
合计 |
病人科室 |
178.03 |
91.358 |
289799 |
289799.000 |
医嘱子类 |
18.52 |
22.191 |
289799 |
289799.000 |
|
单价 |
6.10 |
35.369 |
289799 |
289799.000 |
|
医嘱数量 |
35.34 |
52.661 |
289799 |
289799.000 |
|
费用 |
34.63 |
75.037 |
289799 |
289799.000 |
|
核算分类 |
1.79 |
.936 |
289799 |
289799.000 |
表6-4用典型判别函数特征值
特征值 |
||||
函数 |
特征值 |
方差的 % |
累积 % |
正则相关性 |
1 |
4.121a |
82.7 |
82.7 |
.897 |
2 |
.865a |
17.3 |
100.0 |
.681 |
3 |
.000a |
.0 |
100.0 |
.007 |
a. 分析中使用了前 3 个典型判别式函数。 |
Wilks 的 Lambda |
||||
函数检验 |
Wilks 的 Lambda |
卡方 |
df |
Sig. |
1 到 3 |
.105 |
653972.373 |
18 |
.000 |
2 到 3 |
.536 |
180633.320 |
10 |
.000 |
3 |
1.000 |
13.106 |
4 |
.011 |
标准化的典型判别式函数系数 |
|||
|
函数 |
||
|
1 |
2 |
3 |
病人科室 |
-.007 |
.036 |
.351 |
医嘱子类 |
.574 |
.886 |
.244 |
单价 |
.882 |
-.511 |
.092 |
医嘱数量 |
.091 |
-.070 |
.574 |
费用 |
.534 |
.794 |
-.235 |
核算分类 |
-.016 |
-.295 |
.423 |
典型判别式函数系数 |
||||||||||||||||||||||||||||||||||
|
函数 |
|||||||||||||||||||||||||||||||||
|
1 |
2 |
3 |
|||||||||||||||||||||||||||||||
病人科室 |
.000 |
.000 |
.004 |
|||||||||||||||||||||||||||||||
医嘱子类 |
.029 |
.045 |
.012 |
|||||||||||||||||||||||||||||||
单价 |
.050 |
-.029 |
.005 |
|||||||||||||||||||||||||||||||
医嘱数量 |
.002 |
-.001 |
.011 |
|||||||||||||||||||||||||||||||
费用 |
.009 |
.014 |
-.004 |
|||||||||||||||||||||||||||||||
核算分类 |
-.017 |
-.319 |
.457 |
|||||||||||||||||||||||||||||||
(常量) |
-1.182 |
-.583 |
-2.009 |
|||||||||||||||||||||||||||||||
非标准化系数 |
结构矩阵 |
|||
|
函数 |
||
|
1 |
2 |
3 |
单价 |
.824* |
-.528 |
-.165 |
费用 |
.381* |
.337 |
-.329 |
医嘱子类 |
.119 |
.484* |
.483 |
核算分类 |
-.047 |
-.122 |
.746* |
医嘱数量 |
.007 |
.071 |
.642* |
病人科室 |
.002 |
.058 |
.388* |
判别变量和标准化典型判别式函数之间的汇聚组间相关性 按函数内相关性的绝对大小排序的变量。 |
|||
*. 每个变量和任意判别式函数间最大的绝对相关性 |
通过判别方程的标准化系数,确定各变量对结果的作用大小。
标准化系数函数1中病人科室-0.007,医嘱子类0.574,单价0.882,医嘱数量0.091,费用0.534,核算分类-0.016。其中单价对分类的影响最大,而核算分类对分类的影响最小。显示病人科室的变量与函数间的相关系数为0.002,医嘱子类的变量与函数间的相关系数为0.119,单价的变量与函数间的相关系数为0.824,医嘱数量的变量与函数间的相关系数为0.007,费用的变量与函数间的相关系数为0.381,核算分类的变量与函数间的相关系数为-0.047。
标准化系数函数2中病人科室0.036,医嘱子类0.886,单价-0.511,医嘱数量-0.07,费用0.794,核算分类-0.295。其中医嘱子类对分类的影响最大,而病人科室对分类的影响最小。显示病人科室的变量与函数间的相关系数为0.058,医嘱子类的变量与函数间的相关系数为0.484,单价的变量与函数间的相关系数为-0.528,医嘱数量的变量与函数间的相关系数为0.071,费用的变量与函数间的相关系数为0.337,核算分类的变量与函数间的相关系数为-0.122。
标准化系数函数3中病人科室0.351,医嘱子类0.244,单价0.092,医嘱数量0.574,费用-0.235,核算分类0.423。其中医嘱数量对分类的影响最大,而单价对分类的影响最小。显示病人科室的变量与函数间的相关系数为0.388,医嘱子类的变量与函数间的相关系数为0.483,单价的变量与函数间的相关系数为-0.165,医嘱数量的变量与函数间的相关系数为0.071,费用的变量与函数间的相关系数为0.642,核算分类的变量与函数间的相关系数为0.746。
根据系统显示的非标准化判别方程系数,得到判别方程为:
D1=0.029*医嘱子类+0.05*单价+0.002*医嘱数量+0.009*费用+(-0.017)*核算分类-1.182
D2=0.045*医嘱子类-0.029*单价-0.001*医嘱数量+0.014*费用+(-0.319)*核算分类-0.583
D3=0.004*病人科室+0.012*医嘱子类+0.005*单价+0.011*医嘱数量+(-0.004)* 费用+0.457*核算分类-2.009
我们可以把流水号,病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。这几项的影响因子作为医疗保险的欺诈可能性判定的根据,第一组的中心点为-0.238,第二组的中心点为5.442,第三组的中心点为51.515,第四组中心点为106.507。
将需要判定的六项指标带入到三个判别方程中,分别求出各项的分数,然后求平均分记为相关系数得分,见附表Ⅲ。我们以综合评价值得到的表,比较两个相关的性,发现综合评价值与相关系数评分呈现正相关,所以我们建立的医疗保险欺诈可能的等级标准合理。
通过对比分析,我们发现用综合评价值与相关系数得分相关性很强,从图6-1,图6-2,图6-3,图6-4中分析可知,结果正相关,因此我们认为用综合评分对医疗保险明细进行分级是合理和科学。
。。。。
。。。。
。。。。
附录
附录Ⅰ:主成分分析中的相关矩阵
相关矩阵 |
||||||||
|
|
流水号 |
病人科室 |
医嘱子类 |
单价 |
医嘱数量 |
费用 |
核算分类 |
相关 |
流水号 |
1.000 |
-.161 |
-.020 |
.021 |
-.006 |
.038 |
-.049 |
病人科室 |
-.161 |
1.000 |
.007 |
-.023 |
.026 |
.072 |
.104 |
|
医嘱子类 |
-.020 |
.007 |
1.000 |
-.009 |
.028 |
-.123 |
.238 |
|
单价 |
.021 |
-.023 |
-.009 |
1.000 |
-.097 |
.487 |
-.121 |
|
医嘱数量 |
-.006 |
.026 |
.028 |
-.097 |
1.000 |
.147 |
.260 |
|
费用 |
.038 |
.072 |
-.123 |
.487 |
.147 |
1.000 |
-.263 |
|
核算分类 |
-.049 |
.104 |
.238 |
-.121 |
.260 |
-.263 |
1.000 |
附录Ⅱ:聚类分析表
聚类表(聚类的凝聚过程) |
||||||
阶 |
群集组合 |
系数 |
首次出现阶群集 |
下一阶 |
||
群集 1 |
群集 2 |
群集 1 |
群集 2 |
|||
1 |
27 |
28 |
.000 |
0 |
0 |
2 |
2 |
19 |
27 |
.000 |
0 |
1 |
4 |
3 |
25 |
26 |
.000 |
0 |
0 |
4 |
4 |
19 |
25 |
.000 |
2 |
3 |
6 |
5 |
23 |
24 |
.000 |
0 |
0 |
6 |
6 |
19 |
23 |
.000 |
4 |
5 |
8 |
7 |
21 |
22 |
.000 |
0 |
0 |
8 |
8 |
19 |
21 |
.000 |
6 |
7 |
9 |
9 |
19 |
20 |
.000 |
8 |
0 |
31 |
10 |
16 |
17 |
.000 |
0 |
0 |
11 |
11 |
10 |
16 |
.000 |
0 |
10 |
13 |
12 |
14 |
15 |
.000 |
0 |
0 |
13 |
13 |
10 |
14 |
.000 |
11 |
12 |
15 |
14 |
12 |
13 |
.000 |
0 |
0 |
15 |
15 |
10 |
12 |
.000 |
13 |
14 |
16 |
16 |
10 |
11 |
.000 |
15 |
0 |
25 |
17 |
6 |
7 |
.000 |
0 |
0 |
18 |
18 |
1 |
6 |
.000 |
0 |
17 |
20 |
19 |
4 |
5 |
.000 |
0 |
0 |
20 |
20 |
1 |
4 |
.000 |
18 |
19 |
22 |
21 |
2 |
3 |
.000 |
0 |
0 |
22 |
22 |
1 |
2 |
.000 |
20 |
21 |
28 |
23 |
35 |
36 |
19.763 |
0 |
0 |
24 |
24 |
35 |
37 |
22.744 |
23 |
0 |
26 |
25 |
10 |
18 |
26.444 |
16 |
0 |
34 |
26 |
34 |
35 |
30.482 |
0 |
24 |
27 |
27 |
34 |
38 |
48.712 |
26 |
0 |
29 |
28 |
1 |
8 |
70.562 |
22 |
0 |
35 |
29 |
31 |
34 |
98.901 |
0 |
27 |
30 |
30 |
29 |
31 |
155.351 |
0 |
29 |
32 |
31 |
19 |
32 |
190.398 |
9 |
0 |
34 |
32 |
29 |
33 |
196.161 |
30 |
0 |
33 |
33 |
29 |
30 |
298.385 |
32 |
0 |
36 |
34 |
10 |
19 |
383.045 |
25 |
31 |
36 |
35 |
1 |
9 |
581.374 |
28 |
0 |
37 |
36 |
10 |
29 |
779.626 |
34 |
33 |
37 |
37 |
1 |
10 |
1172.955 |
35 |
36 |
0 |
附录Ⅲ:综合评价值以及分类等级1,2,3,4级(判定结果)
分类等级1
序号 |
流水号 |
病人 科室 |
医嘱子类 |
单价 |
医嘱数量 |
费用 |
核算分类 |
Y(综合评价值) |
分类 等级 |
1 |
35797868 |
203 |
23 |
1.06875 |
48 |
51.3 |
1 |
-0.093229877 |
1 |
2 |
35797869 |
203 |
23 |
1.915 |
12 |
22.98 |
1 |
-0.243294265 |
1 |
4 |
35797871 |
203 |
23 |
1.611667 |
24 |
38.68 |
1 |
-0.167827942 |
1 |
5 |
35797872 |
203 |
1 |
1.478 |
20 |
29.56 |
1 |
-0.366347366 |
1 |
6 |
35797875 |
143 |
6 |
1.7858 |
1 |
1.79 |
1 |
-0.434527246 |
1 |
7 |
35797878 |
143 |
6 |
0.138 |
1 |
0.14 |
1 |
-0.457814317 |
1 |
8 |
35797884 |
143 |
6 |
1.7858 |
1 |
1.79 |
1 |
-0.434522947 |
1 |
9 |
35797887 |
311 |
18 |
5 |
8 |
40 |
1 |
-0.236074527 |
1 |
10 |
35797888 |
311 |
1 |
0.051 |
30 |
1.53 |
1 |
-0.537280012 |
1 |
11 |
35797889 |
311 |
1 |
0.064 |
3 |
0.19 |
1 |
-0.574493567 |
1 |
12 |
35797893 |
311 |
6 |
0.118 |
2 |
0.24 |
1 |
-0.539678607 |
1 |
13 |
35797896 |
311 |
6 |
0.074 |
1 |
0.07 |
1 |
-0.541996685 |
1 |
14 |
35797903 |
311 |
6 |
2.67 |
1 |
2.67 |
1 |
-0.505303563 |
1 |
15 |
35797914 |
311 |
14 |
0.158 |
2 |
0.32 |
1 |
-0.482556648 |
1 |
16 |
35797919 |
311 |
6 |
0.66 |
1 |
0.66 |
1 |
-0.533700118 |
1 |
17 |
35797929 |
311 |
12 |
3.67 |
1 |
3.67 |
1 |
-0.448880458 |
1 |
18 |
35797930 |
311 |
6 |
0.118 |
2 |
0.24 |
1 |
-0.539676799 |
1 |
19 |
35797936 |
311 |
12 |
5.08 |
1 |
5.08 |
1 |
-0.42895943 |
1 |
21 |
35797940 |
311 |
6 |
0.138 |
1 |
0.14 |
1 |
-0.54106492 |
1 |
22 |
35797941 |
311 |
6 |
3.91 |
1 |
3.91 |
1 |
-0.48778308 |
1 |
23 |
35797944 |
185 |
12 |
3.88 |
1 |
3.88 |
1 |
-0.383472447 |
1 |
24 |
35797945 |
185 |
6 |
0.11 |
2 |
0.22 |
1 |
-0.477397107 |
1 |
25 |
35797948 |
185 |
12 |
3.67 |
1 |
3.67 |
1 |
-0.386437987 |
1 |
26 |
35797949 |
185 |
21 |
1.174 |
2 |
2.35 |
1 |
-0.352258621 |
1 |
27 |
35797954 |
185 |
1 |
0.078 |
24 |
1.87 |
1 |
-0.480244784 |
1 |
28 |
35797955 |
185 |
23 |
2.63 |
10 |
26.3 |
2 |
-0.222366482 |
1 |
29 |
35797959 |
311 |
6 |
0.66 |
1 |
0.66 |
1 |
-0.533694011 |
1 |
30 |
35797980 |
143 |
23 |
2.551111 |
9 |
22.96 |
1 |
-0.210794793 |
1 |
31 |
35797981 |
311 |
12 |
4.16 |
1 |
4.16 |
1 |
-0.441956872 |
1 |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
分类等级2
序号 |
流水号 |
病人科室 |
医嘱子类 |
单价 |
医嘱数量 |
费用 |
核算分类 |
Y(综合评价值) |
分类 等级 |
236966 |
39105002 |
143 |
6 |
550 |
2 |
1100 |
1 |
9.81974116 |
2 |
173072 |
38196937 |
143 |
6 |
550 |
2 |
1100 |
1 |
9.750030286 |
2 |
175425 |
38209912 |
112 |
6 |
370 |
4 |
1480 |
1 |
9.521272605 |
2 |
167471 |
38071148 |
111 |
1 |
61.65 |
36 |
2219.4 |
1 |
9.452200577 |
2 |
261611 |
39531565 |
106 |
6 |
186.09 |
10 |
1860.9 |
1 |
9.349800823 |
2 |
145780 |
37767721 |
15 |
6 |
186.09 |
10 |
1860.9 |
1 |
9.259486862 |
2 |
139186 |
37620226 |
106 |
6 |
186.09 |
9 |
1674.81 |
1 |
8.439103326 |
2 |
152992 |
37800314 |
329 |
6 |
604.5 |
1 |
604.5 |
1 |
8.14171349 |
2 |
152471 |
37797534 |
329 |
6 |
604.5 |
1 |
604.5 |
1 |
8.141499395 |
2 |
152467 |
37797518 |
329 |
6 |
604.5 |
1 |
604.5 |
1 |
8.14149907 |
2 |
152458 |
37797463 |
329 |
6 |
604.5 |
1 |
604.5 |
1 |
8.141494938 |
2 |
152433 |
37797388 |
329 |
6 |
604.5 |
1 |
604.5 |
1 |
8.141489346 |
2 |
…. |
… |
… |
… |
… |
… |
… |
… |
… |
… |
分类等级3
序号 |
流水号 |
病人科室 |
医嘱子类 |
单价 |
医嘱数量 |
费用 |
核算分类 |
Y(综合评价值) |
分类等级 |
287213 |
40017584 |
112 |
6 |
370 |
10 |
3700 |
1 |
18.76689752 |
3 |
288445 |
40022135 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.40657241 |
3 |
283180 |
39921419 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.39884285 |
3 |
269543 |
39657082 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.37855052 |
3 |
263359 |
39631004 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.37654544 |
3 |
253885 |
39418058 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.3601984 |
3 |
200618 |
38605624 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.29782482 |
3 |
183675 |
38345810 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.2778832 |
3 |
122764 |
37377571 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.20354825 |
3 |
138208 |
37617059 |
129 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.16296479 |
3 |
80901 |
36711226 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.15239053 |
3 |
42141 |
36257878 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.1175931 |
3 |
3515 |
35814679 |
10 |
11 |
1163.77 |
1 |
1163.77 |
1 |
16.08356756 |
3 |
192365 |
38483152 |
133 |
6 |
888 |
2 |
1776 |
1 |
15.93743788 |
3 |
20346 |
35970504 |
171 |
6 |
91.13 |
40 |
3645.2 |
1 |
15.44114838 |
3 |
288565 |
40022720 |
133 |
6 |
1037.4 |
1 |
1037.4 |
1 |
14.52515755 |
3 |
286222 |
40012516 |
133 |
6 |
1037.4 |
1 |
1037.4 |
1 |
14.52437009 |
3 |
…. |
…. |
… |
… |
… |
… |
… |
… |
… |
… |
分类等级4
序号 |
流水号 |
病人科室 |
医嘱子类 |
单价 |
医嘱数量 |
费用 |
核算分类 |
Y(综合评价值) |
分类等级 |
263096 |
39629128 |
129 |
11 |
1884.3 |
1 |
1884.3 |
1 |
26.49654735 |
4 |
212830 |
38761051 |
129 |
11 |
1884.3 |
1 |
1884.3 |
1 |
26.42990324 |
4 |
180530 |
38228382 |
129 |
11 |
1884.3 |
1 |
1884.3 |
1 |
26.38901344 |
4 |
172825 |
38195417 |
129 |
11 |
1884.3 |
1 |
1884.3 |
1 |
26.38648422 |
4 |
168854 |
38076991 |
129 |
11 |
1884.3 |
1 |
1884.3 |
1 |
26.37738822 |
4 |
136064 |
37606917 |
129 |
11 |
1884.3 |
1 |
1884.3 |
1 |
26.34130719 |
4 |
101474 |
37031092 |
129 |
11 |
1884.3 |
1 |
1884.3 |
1 |
26.29709787 |
4 |
286934 |
40016500 |
10 |
6 |
1703.36 |
1 |
1703.36 |
1 |
23.99382637 |
4 |
228279 |
38935407 |
10 |
6 |
1703.36 |
1 |
1703.36 |
1 |
23.91083542 |
4 |
192010 |
38480050 |
10 |
6 |
1703.36 |
1 |
1703.36 |
1 |
23.87587449 |
4 |
154805 |
37912544 |
10 |
6 |
1703.36 |
1 |
1703.36 |
1 |
23.83230631 |
4 |
66299 |
36542288 |
10 |
6 |
1703.36 |
1 |
1703.36 |
1 |
23.72711079 |
4 |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
附录Ⅳ: 综合评价值与相关系数得分表
分类等级1
综合评价值 |
相关系数得分 |
分类等级 |
0.999784 |
1.49978408 |
1 |
0.999783 |
1.499782792 |
1 |
0.999727 |
1.499727244 |
1 |
0.999726 |
1.499726368 |
1 |
0.999441 |
1.409441296 |
1 |
0.999352 |
1.499352329 |
1 |
0.999308 |
1.499308124 |
1 |
0.999137 |
1.499136694 |
1 |
0.999136 |
1.499136303 |
1 |
0.998933 |
1.508933016 |
1 |
-1.2672E-06 |
0.499998733 |
1 |
-1.5685E-06 |
0.499998432 |
1 |
-2.4E-06 |
0.499997572 |
1 |
-3E-06 |
0.499996951 |
1 |
-3.1E-06 |
0.499996915 |
1 |
-5.6E-06 |
0.599994421 |
1 |
-7.3E-06 |
0.49999275 |
1 |
-9.1E-06 |
0.499990908 |
1 |
-9.1E-06 |
0.499990908 |
1 |
-1.3E-05 |
0.499987172 |
1 |
… |
… |
… |
分类等级2
Y(综合评价值) |
相关系数得分 |
分类等级 |
9.81974116 |
10.01974116 |
2 |
9.750030286 |
10.25003029 |
2 |
9.521272605 |
10.0212726 |
2 |
9.452200577 |
9.952200577 |
2 |
9.349800823 |
9.849800823 |
2 |
9.259486862 |
9.759486862 |
2 |
8.439103326 |
8.939103326 |
2 |
8.14171349 |
8.64171349 |
2 |
8.141499395 |
8.641499395 |
2 |
8.14149907 |
8.64149907 |
2 |
8.141494938 |
8.641494938 |
2 |
8.141489346 |
8.641489346 |
2 |
8.141466924 |
8.641466924 |
2 |
8.141466409 |
8.641466409 |
2 |
8.141461952 |
8.864146195 |
2 |
8.141454036 |
8.641454036 |
2 |
8.141443988 |
8.641443988 |
2 |
8.141441664 |
8.641441664 |
2 |
7.578974891 |
8.078974891 |
2 |
7.57896646 |
8.07896646 |
2 |
… |
… |
… |
分类等级3
Y(综合评价值) |
相关系数得分 |
分类等级 |
18.76689752 |
19.26689752 |
3 |
16.40657241 |
16.90657241 |
3 |
16.39884285 |
16.89884285 |
3 |
16.37855052 |
17.87855052 |
3 |
16.37654544 |
16.87654544 |
3 |
16.3601984 |
16.8601984 |
3 |
16.29782482 |
16.79782482 |
3 |
16.2778832 |
16.7778832 |
3 |
16.20354825 |
17.70354825 |
3 |
16.16296479 |
16.66296479 |
3 |
16.15239053 |
16.65239053 |
3 |
16.1175931 |
16.6175931 |
3 |
16.08356756 |
16.58356756 |
3 |
15.93743788 |
16.43743788 |
3 |
15.44114838 |
15.94114838 |
3 |
14.52515755 |
15.02515755 |
3 |
14.52437009 |
15.02437009 |
3 |
14.51744609 |
15.05174461 |
3 |
14.50603677 |
15.00603677 |
3 |
14.49728108 |
14.99728108 |
3 |
… |
… |
… |
分类等级4
Y(综合评价值) |
相关系数得分 |
分类等级 |
26.49654735 |
21.49654735 |
4 |
26.42990324 |
21.42990324 |
4 |
26.38901344 |
21.38901344 |
4 |
26.38648422 |
20.38648422 |
4 |
26.37738822 |
21.37738822 |
4 |
26.34130719 |
22.34130719 |
4 |
26.29709787 |
21.29709787 |
4 |
23.99382637 |
18.99382637 |
4 |
23.91083542 |
17.91083542 |
4 |
23.87587449 |
18.87587449 |
4 |
23.83230631 |
20.83230631 |
4 |
23.72711079 |
18.72711079 |
4 |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?