文本处理与自然语言处理技术全解析
1. 正则表达式使用建议
正则表达式是一个强大但有时复杂的工具,在使用时,有以下要点需要牢记:
- 若 str
方法(如 find
和 replace
)能完成任务,就无需引入 re
模块。
- search
未找到匹配项时会返回 None
。
- 要考虑搜索字符串的大小,文本长度不同,处理方式也应不同。例如,当文本为 50 字符和 5 兆字节时,后者可能使用 finditer
而非 findall
。
- 创建正则表达式模式时,要注意收益递减问题,如可对 split
返回列表中的字符串使用 strip
。
- 可在网上搜索接近需求的正则表达式。
- 编写不佳的模式会使正则匹配变慢,应尽量具体,若查找字母数字字符,避免使用 .*
而用 \w*
。
- 正则表达式语法和特殊字符易忘,需要时大胆查阅。
- 创建模式时,思考是否应使用 \b
或 \w
。
2. 自然语言处理简介
自然语言处理(NLP)旨在将文本及其字符转化为有意义的信息,进而获取知识、洞察并采取行动。以下是 Python 中一些 NLP 工具的介绍。