导读 在数据分析中,`pd.Categorical` 是 Pandas 提供的一个非常实用的数据类型,特别适合处理具有有限且固定数量的分类值的数据。比如性别(...
在数据分析中,`pd.Categorical` 是 Pandas 提供的一个非常实用的数据类型,特别适合处理具有有限且固定数量的分类值的数据。比如性别(男/女)、地区(北京/上海/广州)等场景。使用 `pd.Categorical` 不仅能节省内存,还能优化某些操作效率。
首先,创建一个分类变量很简单:
```python
import pandas as pd
data = ['apple', 'banana', 'apple', 'orange']
cat_data = pd.Categorical(data)
```
接下来是它的核心优势之一——类别顺序管理:
通过设置 `ordered=True`,可以定义类别间的顺序关系。例如:
```python
cat_ordered = pd.Categorical(['low', 'medium', 'high'], ordered=True)
print(cat_ordered)
```
这会自动排序,方便后续数值化操作或比较。
此外,`categories` 属性允许查看所有可能的分类值,并支持动态修改。例如添加新类别:
```python
cat_data.categories = ['fruit1', 'fruit2', 'fruit3']
```
总之,`pd.Categorical` 是数据预处理中的利器,尤其适用于大规模分类数据的高效管理!💪✨