17370845950

Python集合操作技巧_高效去重解析【教程】
Python集合基于哈希表实现,平均时间复杂度O(1);去重推荐dict.fromkeys保序或set()不保序;运算符要求双set,方法支持任意可迭代对象;update类方法支持原地更新;frozenset用于嵌套或作字典键。

Python集合(set)是处理去重、交并差等操作最高效的数据结构之一,底层基于哈希表实现,平均时间复杂度为 O(1)。掌握其核心用法和常见陷阱,能显著提升数据清洗和逻辑判断效率。

快速去重:list → set → list 的正确写法

直接用 set(my_list) 能去重,但会丢失原始顺序。若需保持首次出现顺序,推荐用字典去重(Python 3.7+ 保证插入顺序):

  • ✅ 推荐(保序): list(dict.fromkeys(my_list))
  • ✅ 简单场景(不关心顺序): list(set(my_list))
  • ❌ 避免嵌套循环手动去重: 效率低,代码冗长,易出错

集合运算符 vs 方法:何时用 &,何时用 .intersection()?

运算符(&|-^)要求两侧都是 set;而方法(.intersection().union() 等)可接受任意可迭代对象(如 list、tuple、generator),更灵活:

  • ✅ 用运算符: 两个变量确定是 set,追求简洁,如 set_a & set_b
  • ✅ 用方法: 一边是 list 或其他类型,如 set_a.intersection([1, 2, 3]),无需提前转 set
  • ⚠️ 注意: set_a & [1, 2, 3] 会报 TypeError

原地更新:减少内存开销的 update / intersection_update

当不需要保留原集合、只关心结果时,用带 _update 后缀的方法,避免创建新对象:

  • set_a.update(set_b) 相当于 set_a |= set_b(并集原地更新)
  • set_a.intersection_update(set_b) 相当于 set_a &= set_b(交集原地更新)
  • 适合处理大集合或内存敏感场景,比如日志去重合并、实时数据流过滤

不可变集合 frozenset:嵌套与字典键的唯一解

普通 set 不可哈希,不能作为字典键或放入另一个 set;frozenset 是不可变版本,解决该限制:

  • fruits = frozenset(['apple', 'banana'])
  • menu = {fruits: 'fruit salad'} ✅ 可作字典键
  • all_menus = {frozenset(['a']), frozenset(['b', 'c'])} ✅ 可存入 set
  • 注意:frozenset 不支持 add/remove,创建后即固定