1、背景
1993年,Agrawal提出了关联规则(Association Rule)问题,旨在发现顾客购货篮内商品间令人感兴趣的关系。
“啤酒和尿布” 沃尔玛利用NCR数据挖掘工具意外的发现:跟尿布一起购买最多的商品竟是啤酒!
今天,关联规则已广泛应用于金融、营销以及生物信息学等领域。
2、概念
1)基本概念:
项集:一个或多个项目的集合。 例如: {Milk, Bread, Diaper} ,包含k 个项目的项集称为k-项集
绝对支持度 ():某一项集出现的次数。 比如
({Milk, Bread,Diaper}) = 2
相对支持度(s): 包含某一项集的事务在全体事务中的比例。比如. s({Milk, Bread, Diaper}) = 2/5
频繁项集: 支持度不小于给定最小支持度阈值(minsup)的项集
2)关联规则
(1)关联规则:寻找给定的数据集中项目之间令人感兴趣的关系
形如 X Y的蕴涵式, 其中 X 和Y是项集,且X
Y=
。 比如: {Milk, Diaper}
{Beer}
3)规则评价参数
支持度 (s) 同时包含X和Y的事务占全部事务的百分比
可信度 (c) 包含项集X的事务中也包含Y的百分比
4)关联规则挖掘的一般流程
- 找出满足最小支持度阈值的所有频繁项集。
- 由频繁项集产生满足最小可信度阈值的强关联规则。
- 这两步中,第二步较容易。关联规则挖掘的总体性能由第一步决定。
3、算法
1)Apriori算法
其核心是基于两阶段频繁项集思想的递推算法。第一步,简单统计所有含一个元素项集出现的频数,并找出那些不小于最小支持度的项集,即一维最大项集。第二步,从第二步开始循环处理直到再没有最大项集生成,循环过程:第k步中,根据第k-1步生成(k-1)维最大项集产生k维候选项集,然后对数据库进行搜索,得到候选项集的支持度,与最小支持度进行比较,从而找到k为最大项集。
2)FP-Growth算法
3)复杂关联规则挖掘
序列模式挖掘
频繁子图挖掘
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通