导读 在数据分析中,处理重复数据是必不可少的一步。Pandas 提供了两个强大的工具:`duplicated()` 和 `drop_duplicates()` 来帮助我们轻松...
在数据分析中,处理重复数据是必不可少的一步。Pandas 提供了两个强大的工具:`duplicated()` 和 `drop_duplicates()` 来帮助我们轻松完成这项任务!✨
首先,让我们了解一下 `duplicated()` 方法。它会返回一个布尔值序列,用于标识 DataFrame 或 Series 中是否包含重复项。例如:
```python
import pandas as pd
data = {'Name': ['Tom', 'Jerry', 'Tom'], 'Age': [20, 21, 20]}
df = pd.DataFrame(data)
print(df.duplicated()) 输出: 0 False, 1 False, 2 True
```
可以看到,最后一行的 "Tom" 和 "20" 被标记为重复。👏
接着是 `drop_duplicates()` 方法,它直接删除重复项并返回一个新的 DataFrame 或 Series。比如:
```python
df_cleaned = df.drop_duplicates()
print(df_cleaned) 删除重复行后输出
```
这两个方法还能结合参数使用,如保留第一个或最后一个重复值(`keep='first'` 或 `keep='last'`)。灵活运用它们,可以让数据更加整洁高效!💪
无论是日常分析还是复杂项目,掌握这些技巧都能事半功倍!🚀