Python集合基于哈希表实现,平均时间复杂度O(1);去重推荐dict.fromkeys保序或set()不保序;运算符要求双set,方法支持任意可迭代对象;update类方法支持原地更新;frozenset用于嵌套或作字典键。
Python集合(set)是处理去重、交并差等操作最高效的数据结构之一,底层基于哈希表实现,平均时间复杂度为 O(1)。掌握其核心用法和常见陷阱,能显著提升数据清洗和逻辑判断效率。
直接用 set(my_list) 能去重,但会丢失原始顺序。若需保持首次出现顺序,推荐用字典去重(Python 3.7+ 保证插入顺序):
list(dict.fromkeys(my_list))
list(set(my_list))
()?运算符(&、|、-、^)要求两侧都是 set;而方法(.intersection()、.union() 等)可接受任意可迭代对象(如 list、tuple、generator),更灵活:
set_a & set_b
set_a.intersection([1, 2, 3]),无需提前转 setset_a & [1, 2, 3] 会报 TypeError
当不需要保留原集合、只关心结果时,用带 _update 后缀的方法,避免创建新对象:
set_a.update(set_b) 相当于 set_a |= set_b(并集原地更新)set_a.intersection_update(set_b) 相当于 set_a &= set_b(交集原地更新)普通 set 不可哈希,不能作为字典键或放入另一个 set;frozenset 是不可变版本,解决该限制:
fruits = frozenset(['apple', 'banana'])menu = {fruits: 'fruit salad'} ✅ 可作字典键all_menus = {frozenset(['a']), frozenset(['b', 'c'])} ✅ 可存入 set