从电影死亡笔记看商业智能在治安领域的应用
写在前面:
<死亡笔记>这里所提及的是电影的版本.同漫画版本相比,剧情的后半节出现了明显的偏差,并且我也承认电影版本的剧情确实不如漫画版本的剧情,甚至到后来结尾的设计主角所犯的那些错误很难想象这是一个高智商的人所能犯下的.
商业只能这里特指微软的商业智能解决方案,并且围绕其三个层次:报表服务,OLAP分析服务,数据挖掘.
正文:
在电影里的场景中,死亡笔记突然降临于世上,但是当时的世人还不知道有这个东西的存在,那么,针对于社会上的离奇死亡案件,这些看似没有任何关联的死亡数据,也就是存在于数据库OLTP中的数据,这些数据当中,我们能发掘到什么样的信息来配合治安人员逐步的发现死亡笔记的存在和最终找到基拉是谁的呢?
从离奇死亡人员的身份来看,嫌疑人肯定是针对于这些法律所无法制裁的到的罪犯的,而不是其它身份的人,这基本上就可以断定是有预谋的谋杀而不是累死于非典和禽流感等的人类自然疾病灾害所引起的突然猝死.这一点,即使不用分析也能得到的结论.
首先,L先参考了正常罪犯由于某种疾病死亡的情况,于是他挑选出一些历史数据,建立一个多维数据集(假设就是多位数据集吧,先不考虑到底是什么技术理论),然后把性别,年龄,国籍和犯罪前科等属性作为一个观察问题的角度---维度来进行分析:
这些结果如果说用Reporting Service做出来的话也合理,但是是基于多维数据集的OLAP多维分析我觉得更合理,因为Reporting Service不仅可以用关系数据库作为数据源,同样也可以以多维数据集作为数据源(同样,数据挖掘的某些算法也可以),利用透视表加透视图,可以很容易从历史数据中让人观察到发生了什么.
这样的数据和在图形中的分布是符合自然规律的,并且也符合正态分布,我们可以把其看成是一个正常的模型作为标准.因为从大量的数据中基本可以发现其规律,数据越多就越能验证这个模型的正确性.
那么针对于所发生的离奇死亡事件,分析出的数据是什么样的呢?
没错,完全偏离了正常的模型,甚至没有一点规律.所以根据这个分析对照,L判定了这是一起非正常的死亡,所以日后的分析自然也就不能用正常的套路来分析.也就是后来L用超自然的现象来解释基拉杀人的依据.
两个报表的对比,让L看到状态的异常,进而调整分析的方向.其实这也正所谓信息化为领导和决策服务.逐步的为治安系统提供决策依据.
根据以上的分析,首先断定了这不是一般的杀人事件,然后,L估算了一下犯罪嫌疑人数的规模,大家再看下面的一个分析图:
这个是典型的数据挖掘得出的一个结论.就是从世界范围内的离奇死亡事件发生的分布来看,要完成这么大的一个”工程”,一般需要多少人.没错,根据L获得的这个挖掘算法,他得到了一个数字,80.正如后面的剧情所交代,80个人在世界范围内作案,成功的机率就是无限趋近于0,所以这也是后来L所得出的结论,凶手就是一个人的依据.
我前一篇随笔中说过,报表是告诉用户发生了什么,OLAP分析是告诉用户为什么会发生,而数据挖掘是告诉用户将来会发生什么.
之所以说这是一个典型的数据挖掘应用.我们可以来看一个简单的问题,也是最常用的一个商业应用,就是根据客户的资料判断出客户可能成为会员的几率,比如QQ的邮件服务通常会得出这样的结论,如果注册的用户为女性,单身,有房,有固定工作,并且大多数是在晚间上网,那么这个用户称为会员的概率就是80%(假设,数字和属性经过处理,请勿对号入座),那么这个百分比就是根据数据挖掘模型和算法中预测出来的.
电影中是利用已经建立好的挖掘模型,然后把数据填入这个模型中得出的结论,而80这么大的数字,在全世界范围的协同作案的成功率有经验的治安人员都会认为不可能,正是作为凶手就是一个人的依据.
根据以上的分析,可以断定杀人的手法不是正常的谋杀或者疾病灾害,而是有一种超出人类所能想象到的一种方法, L很快的就得出了这个结论,于是后来他就开始推测基拉想要杀一个人需要满足什么样的条件.
接下来的工作肯定就是要缉拿基拉归案.在治安领域中,缩小嫌疑人范围是最有效的办法.于是, L把基拉作案的时间汇总成了一个图:
这张图是基拉杀人的时间分布图,从第一行道第二十四行代表一天的24小时,每一列代表一天.这是基拉杀人记录的历史数据.
从图上来看,确实是没有什么规律,但是我们不得不承认L的厉害,他就会根据一个什么理论把这些图按照以周为时间单位的叠加起来,就像下面的几个图一样:
这个图看起来有点像什么呢?没错,很象一个学生的课程表.周六周日没有课(国外周日是一周的第一天,所以第一列是满的),所有杀人的记录基本上都是连续的,而周一下午,周二白天,周四等这样的时间通常是学生在上课,课程比较多,所以就不可能作案.所以根据这个分析近一步又得出了一个结论,犯罪嫌疑人是一个学生(幸好基拉不是在国内,不然统计出的效果肯定能把这些人恶心够呛).
不过,为什么后来这个模型马上就被推翻了呢?甚至后来的分析图成了这样:
说基拉是学生的线索有些站不稳了,那是因为基拉,也就是夜神月他可以入侵到日本的治安网络内部来查看一些资料,而这些想要抓住基拉的人,他们的分析步骤都是记录在其中的,基拉看到了这些人的”工作成果”,所以基拉就干脆忽悠大家一把,模糊他们的推断.但是,这一切都没有骗过L.
再后来也有很多,比如第二部夜神月把第三个基拉限定到电视台的范围内.总之是把很多的”高科技”元素应用到了找到基拉的过程中.
结论:
通过商业智能的信息化工具,可以实现信息化为领导和决策服务,同时,提供一份站在战略层角度统观全局,及时的,在短时间内可以读完,为企业决策服务的统计报表.基于这些原则,可以辅助治安系统中的决策,提高治安人员的结案效率,使历史数据发挥作用,从中用最快的速度为领导以及治安人员提供决策的依据.并且根据不同的数据挖掘算法,预测出可能会发生的情况,以及某一事物的未来可能走向,为治安系统实现报警的功能.
以下是题外话:
关于<死亡笔记>电影版
电影的第一部基本上是和当时漫画版同步的,但谁知道后来漫画版中会和电影版偏离这么大,不知道电影版的导演是否有何漫画作者打官司.以至于后来的第二部结尾太过于勉强.
电影中
死亡笔记,我总感觉应该翻译成死神笔记.这东西如同指环王里的那个指环,不是每个人都能驾驭的了.而最后每一个拿到死亡笔记的人都没有好下场.
夜神月,真正的死神,虽然有正义感,但是也沦落到谁都想杀的地步.
L(龙崎),一直没有透露姓名的家伙,足见其厉害之处,而从头到尾都咬着夜神月不放,其实也正说明其判断是正确的.另外其也是个商业只能高手以及治安领域专家.天才啊.
流克,最祸害人的家伙,做死神都一点诚信都没有,只顾自己开心.不过后来他可能也是看到了雷姆的下场,是啊,象这样的主子,谁敢伺候.
雷姆,绝对讲诚信的家伙,同样成为了夜神月的”笔下鬼”.鬼讲诚信都会吃亏,更何况生活在这年头的人呢.
南空直美,夜神月的女友,都是悲剧型的人物,不想最后都死在夜神月的笔下,而其女友的死,更是令人觉得夜神月的可怕.
弥海纱,智商低的可怜,如果夜神月没死的话到最后的下场肯定比其前女友更惨.
女主持,炮灰,纯炮灰.死也没想到自己只是夜神月的一个棋子,虽然她多少也是情愿的.但要是换成你,你干吗?
草率的大结局:
弥海纱后来的笔记被调包,她居然没有发现,其实流克不在身边就足以说明其异常的状况,这个她没有发现是由于智商低可以理解,夜神月没发现就太不应该了.要说月是打算把弥海纱往绝路上赶似乎勉强说的过去.
另外当夜神月的父亲打算去美国的时候,把笔记装到箱子里,真的假的,凭夜神月的智商就这么容易被骗过吗?不看看流克有没有跟去啊.
剧情的最后,这么多人都模过本子,我觉得这是夜神月的一个比较大的失败,不过,为了自己能从监禁中解脱嫌疑,他的计划安排得已经很超出常人了.只是让那么多人都模笔记,难道想把死神给累死啊.
至于漫画版中的剧情,与电影版已经差别很大.如果看完电影版后觉得推理的不够刺激的话,也可以看一下漫画版的剧情来挑战一下自己的智商.
---------------------------------------------------------------
aspnetx的BI笔记系列索引:
使用SQL Server Analysis Services数据挖掘的关联规则实现商品推荐功能
---------------------------------------------------------------