DeepDiff项目中的数字比较功能详解-CSDN博客

本文链接：https://blog.csdn.net/gitblog_01007/article/details/148888622

DeepDiff项目中的数字比较功能详解

DeepDiff是一个强大的Python库，专门用于比较数据结构之间的差异。在处理数字类型数据时，DeepDiff提供了一系列精细化的比较功能，使得开发者能够根据实际需求灵活控制数字比较的精度和方式。本文将全面解析DeepDiff中的数字比较功能。

有效数字比较(significant_digits)

有效数字功能允许开发者指定比较数字时考虑的小数点后位数。

核心概念

significant_digits参数定义比较时考虑的小数点后位数
默认值为None，表示精确比较
当ignore_numeric_type_changes=True且未设置significant_digits时，自动设为55位
可通过number_format_notation参数切换为科学计数法比较

技术细节

默认情况下，DeepDiff使用"{:.Xf}".format(数字)的格式进行比较，其中X为significant_digits的值。需要注意的是：

浮点数格式化可能导致微小差异，如"{:.3f}".format(1.1135)结果为1.113，而"{:.3f}".format(1.11351)结果为1.114
对于Decimal类型，Python的格式化会采用"银行家舍入法"（四舍六入五成双）

使用示例

from decimal import Decimal

# Decimal类型比较
t1 = Decimal('1.52')
t2 = Decimal('1.57')
DeepDiff(t1, t2, significant_digits=0)  # 返回空字典，表示无差异
DeepDiff(t1, t2, significant_digits=1)  # 返回差异信息

# 浮点数比较
t1 = [1.1129, 1.3359]
t2 = [1.113, 1.3362]
DeepDiff(t1, t2, significant_digits=3)  # 返回空字典
DeepDiff(t1, t2)  # 返回精确差异

数字格式化表示法(number_format_notation)

此参数定义了significant_digits的具体含义。

可选值

"f"（默认）：固定小数点表示法，significant_digits表示小数点后位数
"e"：科学计数法表示法，significant_digits表示有效数字位数

示例对比

# 固定小数点比较
DeepDiff(1024, 1020, significant_digits=2, number_format_notation="f")  # 报告差异

# 科学计数法比较
DeepDiff(1024, 1020, significant_digits=2, number_format_notation="e")  # 不报告差异

自定义数字转字符串函数(number_to_string_func)

DeepDiff在比较数字时，经常需要将数字转换为字符串。开发者可以自定义这一转换过程。

实现原理

默认使用"{:.Xf}".format(数字)格式，其中X为significant_digits。通过number_to_string_func参数，可以完全自定义转换逻辑。

自定义示例

from deepdiff.helper import number_to_string

def custom_number_to_string(number, *args, **kwargs):
    number = 100 if number < 100 else number  # 只比较大于100的数字
    return number_to_string(number, *args, **kwargs)

t1 = [10, 12, 100000]
t2 = [50, 63, 100021]
DeepDiff(t1, t2, significant_digits=3, number_format_notation="e",
         number_to_string_func=custom_number_to_string)  # 忽略小于100的数字差异

其他重要数字比较功能

忽略数值类型变化(ignore_numeric_type_changes)

当设置为True时，忽略数字类型（如int和float）之间的差异，只比较数值本身。

忽略NaN不相等(ignore_nan_inequality)

在Python中，float('nan') == float('nan')返回False。此参数可以控制是否忽略NaN的不相等性。

DeepDiff(float('nan'), float('nan'), ignore_nan_inequality=True)  # 返回空字典

数学epsilon(math_epsilon)

使用Python的math.isclose()函数，定义数值比较的容差范围。

from decimal import Decimal
d1 = {"a": Decimal("7.175")}
d2 = {"a": Decimal("7.174")}
DeepDiff(d1, d2, math_epsilon=0.01)  # 在容差范围内，返回空字典

对数尺度比较(use_log_scale)

对于数量级差异较大的数字比较，可以使用对数尺度来评估差异。

t1 = {'foo': 110, 'bar': 306}
t2 = {'foo': 140, 'bar': 298}

# 不同相似度阈值下的比较结果
DeepDiff(t1, t2, use_log_scale=True, log_scale_similarity_threshold=0.1)

性能优化建议

对于大规模数字比较，DeepDiff提供了专门的优化策略。合理使用上述参数可以显著提升比较效率，特别是在处理大量数值数据时。

通过掌握这些数字比较功能，开发者可以精确控制DeepDiff在数值比较时的行为，满足各种复杂场景下的需求。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考