【数据分析】贝叶斯原理以及简单案例说明
文章来源:公众号-智能化IT系统。
贝叶斯的原理类似于概率反转,通过先验概率推导出后验概率。其公式如下:
在大数据分析中,该定理可以很好的做推导预测,很多电商以及用户取向可以参照此方式,从已有数据推导出未知数据,以归类做后续操作。
例如,在一个购房机构的网站,已有8个客户,信息如下:
用户ID | 年龄 | 性别 | 收入 | 婚姻状况 | 是否买房 |
1 | 27 | 男 | 15W | 否 | 否 |
2 | 47 | 女 | 30W | 是 | 是 |
3 | 32 | 男 | 12W | 否 | 否 |
4 | 24 | 男 | 45W | 否 | 是 |
5 | 45 | 男 | 30W | 是 | 否 |
6 | 56 | 男 | 32W | 是 | 是 |
7 | 31 | 男 | 15W | 否 | 否 |
8 | 23 | 女 | 30W | 是 | 否 |
这时来了一个新的客户,还没买房,其信息如下:
年龄 | 性别 | 收入 | 婚姻状况 |
34 | 女 | 31W | 否 |
那么怎么判断她是否会买呢,是否需要给她做买房推荐呢?
我们用贝叶斯理论来计算其概率。在上述已有的8个客户中,有四个维度,年龄,性别,收入,婚姻状况,这四个纬度构成衡量最终是否买房的标准。我们按照最终是否买房,把记录分为两个表:
买了房的(图表1):
用户ID | 年龄 | 性别 | 收入 | 婚姻状况 | 是否买房 |
2 | 47 | 女 | 30W | 是 | 是 |
4 | 24 | 男 | 45W | 否 | 是 |
6 | 56 | 男 | 32W | 是 | 是 |
没买房的(图表2):
用户ID | 年龄 | 性别 | 收入 | 婚姻状况 | 是否买房 |
1 | 27 | 男 | 15W | 否 | 否 |
3 | 32 | 男 | 12W | 否 | 否 |
5 | 45 | 男 | 30W | 是 | 否 |
7 | 31 | 男 | 15W | 否 | 否 |
8 | 23 | 女 | 30W | 是 | 否 |
买房的概率我们用P(a1)表示,为3/8,没买房的概率我们用P(a2)表示,为5/8。
我们依次从这四个纬度分析:
年龄:
这里我们按照年龄段,分为20-30,30-40,40+三个阶段。这个新客户的年龄在30-40。
P(b1|a1) --- 30-40买房的概率是1/3
P(b1|a2) --- 30-40没买房的概率是2/5
收入:
这里我们按照薪水,分为10-20,20-40,40+三个级别。这个新客户的收入在20-40。
P(b2|a1) --- 20-40买房的概率是2/3
P(b2|a2) --- 20-40没买房的概率是2/5
婚姻状况:
新客户是未婚
P(b3|a1) --- 未婚买房的概率是1/3
P(b3|a2) --- 未婚没买房的概率是3/5
性别:
新客户是女
P(b4|a1) --- 女性买房的概率是1/3
P(b4|a2) --- 女性没买房的概率是1/5
OK,现在开始做整合:
新用户买房的统计概率为P(b|a1)P(a1),其中P(b|a1)为P(b1|a1)P(b2|a1)P(b3|a1)P(b4|a1),那么为0.33*0.66*0.33*0.33*3/8 = 0.0089
新用户不会买房的统计概率为P(b|a2)P(a2),其中P(b|a2)为P(b1|a2)P(b2|a2)P(b3|a2)P(b4|a2),那么为0.4*0.4*0.6*0.2*5/8 = 0.012
由结果得知,该用户不会买房的概率大,所以可以将其分类至不会买房的类别。
公众号-智能化IT系统。每周都有技术文章推送,包括原创技术干货,以及技术工作的心得分享。扫描下方关注。