《Python数据挖掘入门与实践》中Apriori算法代码如何避免频繁项集重复计数？（算法.计数.频繁.入门.数据挖掘...）

《python数据挖掘入门与实践》中apriori算法代码改进：避免频繁项集重复计数

本文针对《Python数据挖掘入门与实践》一书中Apriori算法代码片段中频繁项集重复计数的问题，提出改进方案。原代码片段如下：

from collections import defaultdict

def find_frequent_itemsets(favorable_reviews_by_users, k_1_itemsets, min_support):
    counts = defaultdict(int)
    for user, reviews in favorable_reviews_by_users.items():
        for itemset in k_1_itemsets:
            if itemset.issubset(reviews):
                for other_reviewed_movie in reviews - itemset:
                    current_superset = itemset | frozenset((other_reviewed_movie,))
                    counts[current_superset] += 1
    return dict([(itemset, frequency) for itemset, frequency in counts.items() if frequency >= min_support])

问题在于，由于集合无序性，{a, b} 和 {b, a} 被视为相同集合，但原代码会重复计数。

改进方案一：排序后作为键

此方案在生成 current_superset 后，对其进行排序，再将其作为字典的键。这确保了即使顺序不同，相同的项集也会被识别为相同的键。

from collections import defaultdict

def find_frequent_itemsets_improved1(favorable_reviews_by_users, k_1_itemsets, min_support):
    counts = defaultdict(int)
    for user, reviews in favorable_reviews_by_users.items():
        for itemset in k_1_itemsets:
            if itemset.issubset(reviews):
                for other_reviewed_movie in reviews - itemset:
                    current_superset = itemset | frozenset((other_reviewed_movie,))
                    # Sort the frozenset for consistent key
                    sorted_superset = frozenset(sorted(list(current_superset))) 
                    counts[sorted_superset] += 1
    return dict([(itemset, frequency) for itemset, frequency in counts.items() if frequency >= min_support])

改进方案二：使用itertools.combinations避免重复

此方案利用 itertools.combinations 直接生成所有可能的k-项集组合，避免了重复计算。

from collections import defaultdict
from itertools import combinations

def find_frequent_itemsets_improved2(favorable_reviews_by_users, k_1_itemsets, min_support):
    counts = defaultdict(int)
    for user, reviews in favorable_reviews_by_users.items():
        for itemset in combinations(reviews, 2): #Generate all 2-item combinations
            counts[frozenset(itemset)] += 1
    return dict([(itemset, frequency) for itemset, frequency in counts.items() if frequency >= min_support])

选择合适的改进方案：

方案一修改了原代码的逻辑，保持了原算法的整体结构，只是增加了排序步骤，相对容易理解和维护。方案二则采用了更简洁高效的算法，直接生成所有组合，避免了重复计算，效率更高，但需要理解itertools.combinations 的用法。选择哪个方案取决于对代码可读性和效率的要求。

《Python数据挖掘入门与实践》中Apriori算法代码如何避免频繁项集重复计数？

需要注意的是，以上代码片段只处理了从k=1到k=2的情况。完整的Apriori算法需要递归处理更高阶的频繁项集生成。改进后的代码也需要相应地调整以适应完整的算法流程。

以上就是《Python数据挖掘入门与实践》中Apriori算法代码如何避免频繁项集重复计数？的详细内容，更多请关注知识资源分享宝库其它相关文章！

《Python数据挖掘入门与实践》中Apriori算法代码如何避免频繁项集重复计数？（算法.计数.频繁.入门.数据挖掘...）

最近发表

标签列表

《Python数据挖掘入门与实践》中Apriori算法代码如何避免频繁项集重复计数？（算法.计数.频繁.入门.数据挖掘...）

相关阅读

Python中如何优雅地访问动态命名变量？（变量.命名.优雅.动态.访问...）

Python subprocess模块执行wmic datafile命令失败，如何解决？（如何解决.模块.命令.失败.执行...）

为什么在Chrome中访问某东移动站点时，滑块验证总是无法通过？（滑块.验证.站点.访问.Chrome...）

微信公众号新闻列表抓包失败怎么办？（公众.失败.列表.新闻...）

如何解决Django项目部署到宝塔面板后样式丢失的问题？（宝塔.如何解决.样式.部署.丢失...）

如何使用Pytest只运行单个测试文件？（如何使用.运行.文件.测试.Pytest...）

最近发表

标签列表