Python -- 正则表达式

本文介绍了正则表达式的概念和基本语法,并通过四个实例演示了如何利用正则表达式进行字符串匹配、查找和替换等操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正则表达式

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑,也可以从字符串中获取我们想要的特定部分。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。

字符描述

\               将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。 
^               匹配输入字符串的开始位置。
$               匹配输入字符串的结束位置。
*               匹配前面的子表达式零次或多次。
+               匹配前面的子表达式一次或多次。
?               匹配前面的子表达式零次或一次。
{n}             n是一个非负整数,匹配确定的n次。
{n,}            n是一个非负整数。至少匹配n次。
{n,m}           m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。
?               当该字符紧跟在任何一个其他限制符(*,+,?,{n}{n,}{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。
.               匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符,请使用像“(.|\n)”的模式。
(pattern)       匹配pattern并获取这一匹配。
(?:pattern)     匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。
(?=pattern)     正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
(?!pattern)     正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
(?<=pattern)    反向肯定预查,与正向肯定预查类拟,只是方向相反。
(?<!pattern)    反向否定预查,与正向否定预查类拟,只是方向相反。
x|y             匹配x或y。
[xyz]           字符集合,匹配所包含的任意一个字符。
[^xyz]          负值字符集合,匹配未包含的任意字符。
[a-z]           字符范围,匹配指定范围内的任意字符。
[^a-z]          负值字符范围,匹配任何不在指定范围内的任意字符。
\b              匹配一个单词边界,也就是指单词和空格间的位置。
\B              匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”的“er”。
\cx             匹配由x指明的控制字符。。
\d              匹配一个数字字符。等价于[0-9]\D              匹配一个非数字字符。等价于[^0-9]\f              匹配一个换页符。等价于\x0c和\cL\n              匹配一个换行符。等价于\x0a和\cJ\r              匹配一个回车符。等价于\x0d和\cM\s              匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]\S              匹配任何非空白字符。等价于[^ \f\n\r\t\v]\t              匹配一个制表符。等价于\x09和\cI\v              匹配一个垂直制表符。等价于\x0b和\cK\w              匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
\W              匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\xn             匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。
\num            匹配num,其中num是一个正整数。对所获取的匹配的引用。
\n              标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值。
\nm             标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。如果\nm之前至少有n个获取,则n为一个后跟文字m的向后引用。如果前面的条件都不满足,若n和m均为八进制数字(0-7),则\nm将匹配八进制转义值nm。
\nml            如果n为八进制数字(0-3),且m和l均为八进制数字(0-7),则匹配八进制转义值nml。
\un             匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。

习题1

def main():
    username = 'jakdvia####'
    '''
    注意match()与search()之间的区别:
    match()函数只检测RE是不是在string的开始位置匹配,
    search()会扫描整个string查找匹配;
    也就是说match()只有在0位置匹配成功的话才有返回,
    如果不是开始位置匹配成功的话,match()就返回none。
    '''
    if re.match(r'\w{6,20}', username):
        print('匹配成功!')
    else:
        print('匹配失败!')
    m = re.match(r'\w{6,20}', username)
    print(m)
    print(m.span())
    # 返回一个元组包含匹配 (开始,结束) 的位置
    print(m.group())
    # 返回被re匹配的字符串


if __name__ == '__main__':
    main()

习题2

import re


def is_qq_password():
    qq = input('QQ: ')
    password = input('Password: ')
    #  compile() 函数将一个字符串编译为字节代码
    m1 = re.match(r'^[1,9]\d{4,11}$', qq)
    #  match是从头开始匹配的, search从任何位置开始匹配
    if not m1:
        print('输入QQ无效!')
    pattern1 = re.compile(r'^\w[0-9a-zA-Z_]{6,20}')
    m2 = pattern1.match(password)
    # m2 = re.match(r'^\w[0-9a-zA-Z_]{6,20}$', password)
    if not m2:
        print('输效密码无效!')
    if m1 and m2:
        print('输入信息匹配!')


if __name__ == '__main__':
    is_qq_password()

习题3

import re


def main():
    pattern = re.compile(r'(?<=\D)1[345789]\d{9}(?=\D)')
    sentence = '重要的事情说8130000000000遍我的手机号是13512346789不是13300998765,舒玲的手机号是13548068412,不是110'
    mylist = re.findall(pattern, sentence)
    print(mylist)
    print(pattern.finditer(sentence))
    # iter - iterator - 迭代器
    for temp in pattern.finditer(sentence):
        print(temp)
        print(temp.group())
        # group()用来提出分组截获的字符串
        print(temp.span())
        # 返回一个元组包含匹配 (开始,结束) 的位置


if __name__ == '__main__':
    main()

习题4

from re import findall, sub


def foo(modv):
    val = int(modv.group('foo1'))
    return str(val ** 2)


def main():
    content = 'abc124hello46goodbye67shit'
    list1 = findall(r'\d+', content)
    print(list1)
    mylist = list(map(int, list1))
    print(mylist)
    print(sum(mylist) / len(mylist))
    print(sub(r'(?P<foo1>\d+)(?P<foo2>[hg])', foo, content))
    print()
    print(sub(r'(?P<foo1>\d+)', foo, content))
    # ?P<name>是给正则中的组起一个名字


if __name__ == '__main__':
    main()
【基于QT的调色板】是一个使用Qt框架开发的色彩选择工具,类似于Windows操作系统中常见的颜色选取器。Qt是一个跨平台的应用程序开发框架,广泛应用于桌面、移动和嵌入式设备,支持C++和QML语言。这个调色板功能提供了横竖两种渐变模式,用户可以方便地选取所需的颜色值。 在Qt中,调色板(QPalette)是一个关键的类,用于管理应用程序的视觉样式。QPalette包含了一系列的颜色角色,如背景色、前景色、文本色、高亮色等,这些颜色可以根据用户的系统设置或应用程序的需求进行定制。通过自定义QPalette,开发者可以创建具有独特视觉风格的应用程序。 该调色板功能可能使用了QColorDialog,这是一个标准的Qt对话框,允许用户选择颜色。QColorDialog提供了一种简单的方式来获取用户的颜色选择,通常包括一个调色板界面,用户可以通过滑动或点击来选择RGB、HSV或其他色彩模型中的颜色。 横渐变取色可能通过QGradient实现,QGradient允许开发者创建线性或径向的色彩渐变。线性渐变(QLinearGradient)沿直线从一个点到另一个点过渡颜色,而径向渐变(QRadialGradient)则以圆心为中心向外扩散颜色。在调色板中,用户可能可以通过滑动条或鼠标拖动来改变渐变的位置,从而选取不同位置的颜色。 竖渐变取色则可能是通过调整QGradient的方向来实现的,将原本水平的渐变方向改为垂直。这种设计可以提供另一种方式来探索颜色空间,使得选取颜色更为直观和便捷。 在【colorpanelhsb】这个文件名中,我们可以推测这是与HSB(色相、饱和度、亮度)色彩模型相关的代码或资源。HSB模型是另一种常见且直观的颜色表示方式,与RGB或CMYK模型不同,它以人的感知为基础,更容易理解。在这个调色板中,用户可能可以通过调整H、S、B三个参数来选取所需的颜色。 基于QT的调色板是一个利用Qt框架和其提供的色彩管理工具,如QPalette、QColorDialog、QGradient等,构建的交互式颜色选择组件。它不仅提供了横竖渐变的色彩选取方式,还可能支持HSB色彩模型,使得用户在开发图形用户界面时能更加灵活和精准地控制色彩。
标题基于Spring Boot的二手物品交易网站系统研究AI更换标题第1章引言阐述基于Spring Boot开发二手物品交易网站的研究背景、意义、现状及本文方法与创新点。1.1研究背景与意义介绍二手物品交易的市场需求和Spring Boot技术的适用性。1.2国内外研究现状概述当前二手物品交易网站的发展现状和趋势。1.3论文方法与创新点说明本文采用的研究方法和在系统设计中的创新之处。第2章相关理论与技术介绍开发二手物品交易网站所涉及的相关理论和关键技术。2.1Spring Boot框架解释Spring Boot的核心概念和主要特性。2.2数据库技术讨论适用的数据库技术及其在系统中的角色。2.3前端技术阐述与后端配合的前端技术及其在系统中的应用。第3章系统需求分析详细分析二手物品交易网站系统的功能需求和性能需求。3.1功能需求列举系统应实现的主要功能模块。3.2性能需求明确系统应满足的性能指标和安全性要求。第4章系统设计与实现具体描述基于Spring Boot的二手物品交易网站系统的设计和实现过程。4.1系统架构设计给出系统的整体架构设计和各模块间的交互方式。4.2数据库设计详细阐述数据库的结构设计和数据操作流程。4.3界面设计与实现介绍系统的界面设计和用户交互的实现细节。第5章系统测试与优化说明对系统进行测试的方法和性能优化的措施。5.1测试方法与步骤测试环境的搭建、测试数据的准备及测试流程。5.2测试结果分析对测试结果进行详细分析,验证系统是否满足需求。5.3性能优化措施提出针对系统性能瓶颈的优化建议和实施方案。第6章结论与展望总结研究成果,并展望未来可能的研究方向和改进空间。6.1研究结论概括本文基于Spring Boot开发二手物品交易网站的主要发现和成果。6.2展望与改进讨论未来可能的系统改进方向和新的功能拓展。
1. 用户与权限管理模块 角色管理: 学生:查看个人住宿信息、提交报修申请、查看卫生检查结果、请假外出登记 宿管人员:分配宿舍床位、处理报修申请、记录卫生检查结果、登记晚归情况 管理员:维护楼栋与房间信息、管理用户账号、统计住宿数据、发布宿舍通知 用户操作: 登录认证:对接学校统一身份认证(模拟实现,用学号 / 工号作为账号),支持密码重置 信息管理:学生完善个人信息(院系、专业、联系电话),管理员维护所有用户信息 权限控制:不同角色仅可见对应功能(如学生无法修改床位分配信息) 2. 宿舍信息管理模块 楼栋与房间管理: 楼栋信息:名称(如 "1 号宿舍楼")、层数、性别限制(男 / 女 / 混合)、管理员(宿管) 房间信息:房间号(如 "101")、户型(4 人间 / 6 人间)、床位数量、已住人数、可用状态 设施信息:记录房间内设施(如空调、热水器、桌椅)的配置与完好状态 床位管理: 床位编号:为每个床位设置唯一编号(如 "101-1" 表示 101 房间 1 号床) 状态标记:标记床位为 "空闲 / 已分配 / 维修中",支持批量查询空闲床位 历史记录:保存床位的分配变更记录(如从学生 A 调换到学生 B 的时间与原因) 3. 住宿分配与调整模块 住宿分配: 新生分配:管理员导入新生名单后,宿管可按专业集中、性别匹配等规则批量分配床位 手动分配:针对转专业、复学学生,宿管手动指定空闲床位并记录分配时间 分配结果公示:学生登录后可查看自己的宿舍信息(楼栋、房间号、床位号、室友列表) 调整管理: 调宿申请:学生提交调宿原因(如室友矛盾、身体原因),选择意向宿舍(需有空位) 审批流程:宿管审核申请,通过后执行床位调换,更新双方住宿信息 换宿记录:保存调宿历史(申请人、原床位、新床位、审批人、时间) 4. 报修与安全管理模块 报修管理: 报修提交:学生选择宿舍、设施类型(如 "
<think>好的,我需要帮助用户解决使用python-docx进行正则表达式高级文本替换的问题。首先,我得回忆一下python-docx的文档和相关正则表达式Python中的使用方法。用户提到了他们希望看到示例代码,所以重点应该放在提供一个清晰的例子上。 首先,python-docx库本身不直接支持正则表达式替换,但可以通过遍历文档中的段落和表格中的文本来实现。用户需要结合re模块来处理正则表达式。我需要确保示例代码覆盖如何读取文档、遍历段落、应用正则替换,并保存修改后的文档。 接下来,我需要考虑用户可能的错误点,比如忘记处理表格中的文本,或者正则表达式中的转义问题。例如,在正则表达式中替换圆括号时需要使用转义字符,这点需要提醒用户注意。引用中的内容提到特殊字符的处理,比如使用\.来匹配小数点,所以在示例中应该展示如何处理这些情况。 然后,我需要确保代码的结构清晰,包括导入必要的库、加载文档、定义替换函数、遍历段落和表格,最后保存文档。同时,要解释每一步的作用,比如为什么需要逐个处理段落中的每个run对象,可能是因为python-docx中样式信息保存在run级别,直接替换整个段落文本会丢失样式。 另外,用户可能需要了解如何扩展代码,比如更复杂的正则表达式或处理其他文档元素,如页眉页脚。所以,在相关问题中,可以提出如何处理这些部分,或者如何优化性能,比如处理大型文档时的注意事项。 最后,需要检查代码的正确性,确保正则替换部分正确使用re.sub,并且正确处理替换后的文本赋值给run.text。同时,提醒用户备份原文档,避免数据丢失。</think>以下是一个使用`python-docx`结合正则表达式进行高级文本替换的详细示例,包含代码注释和关键点说明: ```python import re from docx import Document def regex_replace_in_doc(doc_path, pattern, repl, output_path): """ 实现Word文档的正则表达式替换 :param doc_path: 输入文档路径 :param pattern: 正则表达式模式 :param repl: 替换内容(支持正则表达式分组引用) :param output_path: 输出文档路径 """ doc = Document(doc_path) # 处理所有段落 for para in doc.paragraphs: # 必须遍历run以保留格式 for run in para.runs: # 使用re.sub进行正则替换 new_text = re.sub(pattern, repl, run.text) if new_text != run.text: run.text = new_text # 处理表格中的文本 for table in doc.tables: for row in table.rows: for cell in row.cells: # 递归处理嵌套表格 if cell.tables: for nested_table in cell.tables: # 类似处理逻辑... pass # 处理单元格段落 for para in cell.paragraphs: for run in para.runs: run.text = re.sub(pattern, repl, run.text) doc.save(output_path) # 使用示例:将日期格式从YYYY-MM-DD转换为YYYY年MM月DD日 regex_replace_in_doc( doc_path="input.docx", pattern=r"(\d{4})-(\d{2})-(\d{2})", repl=r"\1年\2月\3日", output_path="output.docx" ) ``` ### 关键实现细节说明: 1. **格式保留机制**:通过遍历每个`run`对象进行替换,可以保留原有的字体、颜色等格式属性[^2] 2. **正则表达式处理**:使用`re.sub()`支持分组引用(如`\1`)和复杂模式匹配[^4] 3. **嵌套结构处理**:包含对表格单元格内嵌套表格的递归处理逻辑(示例中为简化未完全展开) 4. **特殊字符处理**:正则表达式中使用`r""`原始字符串避免转义问题,需要匹配字面括号时应使用`\(`和`\)`[^3] ### 高级应用场景示例: ```python # 场景:隐藏手机号中间四位 regex_replace_in_doc( pattern=r"(\d{3})(\d{4})(\d{4})", repl=r"\1****\3", ... # 其他参数 ) # 场景:统一日期格式 regex_replace_in_doc( pattern=r"(\d{2})/(\d{2})/(\d{4})", repl=r"\3-\1-\2", # 转换为YYYY-MM-DD ... ) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值