我们需要一种模式匹配算法,该算法可以识别与模式匹配的字符序列或词序列,以便从较长的文本字符串中“提取”它们。构建这种模式匹配算法的简单方法是在Python中,使用一系列if/else语句在字符串的逐个位置查找该符号(单词或字符)。假设想在语句开头找到一些常见的问候语,例如“Hi”、“Hello”、“Yo”,可以按照下面的代码操作:
def find_greeting(s):
if s[0]=="H":
if s[:3] in ['Hi','Hi ','Hi,','Hi!']:
return s[:2]
elif s[:6] in ['Hello','Hello ','Hello,','Hello!']:
return s[:5]
elif s[0]=="Y":
if s[1]=='o' and s[:3] in ['Yo','Yo ','Yo,','Yo!']:
return s[:2]
return None
下面是它的运行效果:
print(find_greeting('Hi Mr.Turning!'))
print(find_greeting('Hello,Tom.'))
print(find_greeting('hello'))
print(find_greeting('HelloWorld'))
可以考哪懂啊,通过这种方式编写模式匹配算法十分烦琐。甚至效果一般,它非常脆弱,依赖字符串中字符拼写、大小写以及位置的精确表达。指定所有“分隔符”也非常棘手,这些“分隔符”包括标点符号、空白字符,或者要查找的单词两边的字符串的开头和结尾字符。