如何解决py:55: FutureWarning: The default of observed=False is deprecated and will be changed to True in

猫头虎

于 2025-07-21 21:31:09 发布

阅读量4.4k

点赞数 68

CC 4.0 BY-SA版权

文章标签： pip python httpx beautifulsoup pandas scipy scrapy

转载必须标明来源：猫头虎技术团队，其他疑问搜： CSDNWF

本文链接：https://blog.csdn.net/qq_44866828/article/details/149516126

已解决的Bug专区专栏收录该内容

256 篇文章

订阅专栏

如何解决py:55: FutureWarning: The default of observed=False is deprecated and will be changed to True in a future version of pandas. Pass observed=False to retain current behavior or observed=True to adopt the future default and silence this warning.
grouped = df.groupby(‘range’)[‘newapi’].apply(list).to_dict()问题

引言

在使用 Pandas 进行分组（groupby）操作时，你可能会遇到如下警告：

FutureWarning: The default of observed=False is deprecated and will be changed to True in a future version of pandas. 
Pass observed=False to retain current behavior or observed=True to adopt the future default and silence this warning.
  grouped = df.groupby('range')['newapi'].apply(list).to_dict()

此警告提示：在未来的 Pandas 版本中，groupby 对类别（Categorical）数据的默认行为将从 observed=False 改为 observed=True。如果不做任何修改，在版本升级后，代码的分组结果可能会发生变化，或者需要对新行为进行适配。

本文将从以下几个方面，超详细地讲解如何：

重现该警告
分析警告背后的机制
通过修改 observed 参数来解决或消除警告
推荐最佳实践，保证代码的向前兼容

作者简介

猫头虎是谁？

大家好，我是猫头虎，猫头虎技术团队创始人，也被大家称为猫哥。我目前是COC北京城市开发者社区主理人、COC西安城市开发者社区主理人，以及云原生开发者社区主理人，在多个技术领域如云原生、前端、后端、运维和AI都具备丰富经验。

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用方法、前沿科技资讯、产品评测、产品使用体验，以及产品优缺点分析、横向对比、技术沙龙参会体验等。我的分享聚焦于云服务产品评测、AI产品对比、开发板性能测试和技术报告。

目前，我活跃在CSDN、51CTO、腾讯云、阿里云开发者社区、知乎、微信公众号、视频号、抖音、B站、小红书等平台，全网粉丝已超过30万。我所有平台的IP名称统一为猫头虎或猫头虎技术团队。

我希望通过我的分享，帮助大家更好地掌握和使用各种技术产品，提升开发效率与体验。

作者名片 ✍️

博主：猫头虎
全网搜索关键词：猫头虎
作者微信号：Libin9iOak
作者公众号：猫头虎技术团队
更新日期：2025年03月21日
🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能！

加入我们AI共创团队 🌐

猫头虎AI共创社群矩阵列表：
- 点我进入共创社群矩阵入口
- 点我进入新矩阵备用链接入口

加入猫头虎的共创圈，一起探索编程世界的无限可能！ 🚀

部分专栏链接：

🔗 精选专栏：

《面试题大全》 — 面试准备的宝典！
《IDEA开发秘籍》 — 提升你的IDEA技能！
《100天精通鸿蒙》 — 从Web/安卓到鸿蒙大师！
《100天精通Golang（基础入门篇）》 — 踏入Go语言世界的第一步！

猫头虎分享No bug

正文

一、问题重现

假设有如下示例数据，其中 range 列为类别（Categorical）类型：

import pandas as pd

# 构造示例 DataFrame
df = pd.DataFrame({
    'range': pd.Categorical(
        ['A', 'B', 'A', 'C', 'B', 'A'],
        categories=['A', 'B', 'C', 'D'],  # D 虽然在 categories 中，但不在数据中出现
        ordered=False
    ),
    'newapi': [1, 2, 3, 4, 5, 6]
})

# 直接 groupby，未指定 observed
grouped = df.groupby('range')['newapi'].apply(list).to_dict()

运行后，你会看到：

FutureWarning: The default of observed=False is deprecated and will be changed to True in a future version of pandas. Pass observed=False to retain current behavior or observed=True to adopt the future default and silence this warning.
  grouped = df.groupby('range')['newapi'].apply(list).to_dict()

当前行为 vs. 未来行为

当前默认 observed=False：
- 分组时会返回所有类别（categories）对应的键，即使某个类别在数据中没有出现，其对应值也是空列表。
未来默认 observed=True：
- 只返回实际在数据中出现的类别，未出现的类别将被忽略，不会在结果字典中出现。

二、深入机制解析

1. 什么是 `observed`？

observed=False（默认行为）：
返回完整的类别索引（包括那些未出现在数据中的类别），保证结果长度与分类定义一致。
observed=True：
只“观测”（observe）到真实出现的类别，跳过未出现的类别，结果更为精简。

2. 为什么要修改默认值？

性能与输出简洁性：对于大规模的分类变量，当某些类别罕见时，保留全部类别分组会浪费计算和存储；
符合直觉：开发者往往期望只看到真实出现的数据分组；
避免冗余：在可视化或统计报告中，忽略未出现的类别可让关注点更集中。

3. backward compatibility（向后兼容）

默认值从 False 改为 True 会影响现有代码：
- 如果你的逻辑依赖于“所有类别都在输出中”，则需要显式指定 observed=False；
- 如果你的逻辑只关注出现过的类别，则可以切换到 observed=True，同时消除警告。

三、解决方案

方案一：保持当前行为（显式 `observed=False`）

在需要“全类别输出”时，显式传入 observed=False：

grouped = (
    df
    .groupby('range', observed=False)['newapi']
    .apply(list)
    .to_dict()
)

优点：
- 保持与当前版本一致的输出格式；
- 仅消除警告，不改变逻辑。
适用场景：
- 你明确需要输出所有定义的类别（包括未出现的）。

方案二：采用未来默认（显式 `observed=True`）

如果你只关心“实际出现”的分组，改为 observed=True：

grouped = (
    df
    .groupby('range', observed=True)['newapi']
    .apply(list)
    .to_dict()
)

优点：
- 输出更简洁；
- 与未来 Pandas 默认行为一致，无需在未来迁移时再次修改。
适用场景：
- 你只在意出现过的类别，即使某些类别定义在 Categorical 中，但并不需要它们的空分组。

方案三：如果你不确定

如果暂时无法判断应该保留哪种行为，可以在开发环境或测试环境中，先使用 observed=True 与 observed=False 两个版本分别运行，比较输出差异，再决定。示例：

# 试验性比较
g_false = df.groupby('range', observed=False)['newapi'].apply(list).to_dict()
g_true  = df.groupby('range', observed=True)['newapi'].apply(list).to_dict()
print("False 全类别：", g_false)
print("True  实际类别：", g_true)

四、完整示例

import pandas as pd

# 1. 准备数据
df = pd.DataFrame({
    'range': pd.Categorical(['A','B','A','C','B','A'], categories=['A','B','C','D']),
    'newapi': [1, 2, 3, 4, 5, 6]
})

# 2. 保持当前行为，显式 observed=False
grouped_keep_all = df.groupby('range', observed=False)['newapi'].apply(list).to_dict()
print("保留全部类别（含空分组）：", grouped_keep_all)
# 输出: {'A': [1, 3, 6], 'B': [2, 5], 'C': [4], 'D': []}

# 3. 采用未来默认，显式 observed=True
grouped_observed_only = df.groupby('range', observed=True)['newapi'].apply(list).to_dict()
print("仅观测到的类别：", grouped_observed_only)
# 输出: {'A': [1, 3, 6], 'B': [2, 5], 'C': [4]}

五、最佳实践与建议

明确行为意图
- 在项目规范或代码注释中注明为何选择 observed=False 或 True，方便团队成员理解；
版本兼容
- 在 requirements.txt 或 setup.py 中锁定 Pandas 版本范围，避免无意中升级到引入新默认的版本；
统一风格
- 若项目中多处使用 Categorical 分组，统一在封装函数或工具层面处理 observed 参数；
测试覆盖
- 为关键逻辑编写单元测试，验证 observed 在不同参数下的输出，保证升级后不会引入潜在 bug；
日志与监控
- 当发生分组操作时，可在日志中记录使用了哪个 observed 设置，便于追踪和排查。

结语

Pandas 团队对 observed 默认值的调整，是为了提升分组操作的灵活性与性能。但在实际项目中，我们要有意识地显式声明该参数，以保持代码的可预测性与稳定性。本文从警告重现、机制解析、两种解决方案、完整代码示例到最佳实践，超详细地剖析了 FutureWarning: observed 参数的处理方式。希望对你的项目升级和日常开发有所帮助！

猫头虎