📊 Pandas 判断与删除重复数据 🔄

导读在数据分析中，处理重复数据是必不可少的一步。Pandas 提供了两个强大的工具：`duplicated()` 和 `drop_duplicates()` 来帮助我们轻松...

在数据分析中，处理重复数据是必不可少的一步。Pandas 提供了两个强大的工具：`duplicated()` 和 `drop_duplicates()` 来帮助我们轻松完成这项任务！✨

首先，让我们了解一下 `duplicated()` 方法。它会返回一个布尔值序列，用于标识 DataFrame 或 Series 中是否包含重复项。例如：

```python

import pandas as pd

data = {'Name': ['Tom', 'Jerry', 'Tom'], 'Age': [20, 21, 20]}

df = pd.DataFrame(data)

print(df.duplicated()) 输出: 0 False, 1 False, 2 True

```

可以看到，最后一行的 "Tom" 和 "20" 被标记为重复。👏

接着是 `drop_duplicates()` 方法，它直接删除重复项并返回一个新的 DataFrame 或 Series。比如：

```python

df_cleaned = df.drop_duplicates()

print(df_cleaned) 删除重复行后输出

```

这两个方法还能结合参数使用，如保留第一个或最后一个重复值（`keep='first'` 或 `keep='last'`）。灵活运用它们，可以让数据更加整洁高效！💪

无论是日常分析还是复杂项目，掌握这些技巧都能事半功倍！🚀