您的位置:首页 >综合 > 互联科技数码科普中心 >

📊 Pandas 判断与删除重复数据 🔄

导读 在数据分析中,处理重复数据是必不可少的一步。Pandas 提供了两个强大的工具:`duplicated()` 和 `drop_duplicates()` 来帮助我们轻松...

在数据分析中,处理重复数据是必不可少的一步。Pandas 提供了两个强大的工具:`duplicated()` 和 `drop_duplicates()` 来帮助我们轻松完成这项任务!✨

首先,让我们了解一下 `duplicated()` 方法。它会返回一个布尔值序列,用于标识 DataFrame 或 Series 中是否包含重复项。例如:

```python

import pandas as pd

data = {'Name': ['Tom', 'Jerry', 'Tom'], 'Age': [20, 21, 20]}

df = pd.DataFrame(data)

print(df.duplicated()) 输出: 0 False, 1 False, 2 True

```

可以看到,最后一行的 "Tom" 和 "20" 被标记为重复。👏

接着是 `drop_duplicates()` 方法,它直接删除重复项并返回一个新的 DataFrame 或 Series。比如:

```python

df_cleaned = df.drop_duplicates()

print(df_cleaned) 删除重复行后输出

```

这两个方法还能结合参数使用,如保留第一个或最后一个重复值(`keep='first'` 或 `keep='last'`)。灵活运用它们,可以让数据更加整洁高效!💪

无论是日常分析还是复杂项目,掌握这些技巧都能事半功倍!🚀

免责声明:本文由用户上传,如有侵权请联系删除!