复杂正则语句（表格数据）解析-CSDN博客

本文链接：https://blog.csdn.net/qq_54655817/article/details/150112225

这段Python代码使用正则表达式（regex）在原始文本中搜索特定模式，其含义可拆解如下：

1. 编译正则表达式模式

pattern = re.compile(
    r'.*?研发费用\s*([\d,.]+)\s*[\u4e00-\u9fa5]*?'
    r'(\d{3}(?:,\d{3})*(?:\.\d+)?)\s*[\u4e00-\u9fa5]*?'
    r'(\d+(?:\.\d+)?%)',
    flags=re.I
)

re.com pile()
将字符串形式的正则表达式编译为可重用的模式对象（Pattern对象），提升匹配效率。
原始字符串（r'...'）
使用r前缀避免转义冲突（如\d不会被解释为转义字符）。
flags=re.I
忽略大小写匹配（例如"研发费用"可匹配"研发费用"或"研发费用"）。
模式结构
表达式分为三部分（对应三个捕获组），用空白和汉字分隔：
- .*?研发费用\s*([\d,.]+)
  - .*?: 惰性匹配任意字符（尽可能少匹配）
  - 研发费用: 固定关键词
  - \s*: 0个或多个空白字符（空格/制表符等）
  - ([\d,.]+): 捕获组1匹配数字、逗号或点（如12,345.67）。
- (\d{3}(?:,\d{3})*(?:\.\d+)?)
  - 捕获组2匹配千位分隔格式的数字：
    - \d{3}: 3位数字（如123）
    - (?:,\d{3})*: 0个或多个逗号+3位数字（如,456）
    - (?:\.\d+)?: 可选的小数部分（如.789）。
- (\d+(?:\.\d+)?%)
  - 捕获组3匹配百分比数字：
    - \d+: 整数部分
    - (?:\.\d+)?: 可选的小数部分
    - %: 百分号。
- 分隔符\s*[\u4e00-\u9fa5]*?
  - \s*: 空白字符
  - [\u4e00-\u9fa5]*?: 0个或多个汉字（Unicode范围）。

2. 执行文本搜索

m = pattern.search(raw)

pattern.se arch(raw)
在字符串raw中搜索首个匹配pattern的子串（区别于match()需从头匹配）。
返回值m
若匹配成功，返回Match对象（包含捕获组信息）；否则返回None。
通过m.gr oup(1), m.gr oup(2), m.gr oup(3)可分别提取三个捕获组的数据。