正则表达式与高级 sed 编辑器使用指南
1. 扩展正则表达式
1.1 基本介绍
POSIX ERE 模式包含一些额外的符号,被部分 Linux 应用和实用程序使用。gawk 能识别 ERE 模式,而 sed 不能。需要注意的是,sed 和 gawk 中的正则表达式引擎不同。gawk 可使用大多数扩展正则表达式模式符号,具备一些 sed 没有的过滤能力,但处理数据流时通常较慢。
1.2 常用 ERE 模式符号
1.2.1 问号(?)
问号与星号类似,但有细微差别。它表示前面的字符可以出现零次或一次,不能匹配字符的重复出现。示例如下:
$ echo "bt" | gawk '/be?t/{print $0}'
bt
$ echo "bet" | gawk '/be?t/{print $0}'
bet
$ echo "beet" | gawk '/be?t/{print $0}'
$
$ echo "beeet" | gawk '/be?t/{print $0}'
$
问号也可与字符类一起使用:
$ echo "bt" | gawk '/b[ae]?t/{print $0}'
bt
$ echo "bat" | gawk '/b[ae]?t/{print $0}'
bat
$ echo "bot" | gawk '/b[ae]?t/{print $0}'
$
$ echo "bet" | gawk '/b[ae]?t/{print $0}'