庞玉栋个人博客、人生苦短-我用Python

关联分析规则

发布时间:7年前热度: 1267 ℃评论数:

关联规则是指从大量数据中挖掘出有价值的数据项之间的相关关系,用关联规则表示出来,从而为当前市场经济发展提供准确的决策手段。

关联规则中三个重要的衡量指标:

1)支持度(support

支持度是指在所有项目集中{X, Y}出现的可能性,即项目集中同时含有XY的概率,记为

2)置信度(confidence

置信度表示在先决条件X发生的条件下,关联结果Y发生的概率,记为

3)提升度(lift

提升度表示在含有X的条件下同时含有Y的可能性与没有X这个条件下项目集中含有Y的可能性之比,记为

 

关联规则挖掘总体过程主要包括两步:

   (1)找出所有支持度≥最小支持度的频繁项目集;

   (2)由频繁项目集生成满足≥最小置信度的关联规则。

构造Apriori算法模型:

关联规则挖掘算法中最经典的是Apriori算法,它利用逐层搜索的迭代方法来完成频繁项集的挖掘,即利用(k-1)-项集产生k-项集。具体做法如下:

(1)找出所有的频繁1-项集,记为

(2)利用来挖掘频繁2-项集,如此不断循环,直至找到所有的频繁k-项集为止;

(3)计算每类中各个规则的支持度,找出所有支持度≥最小支持度的规则即为关联规则。

手机扫码访问