Python 中的正则表达式：匹配和替换基础知识，附带示例

正则表达式，简称“regex”，是 Python 程序员工具包中的基本工具。它们提供了一种强大的方式来匹配文本中的模式，使开发人员能够高效地搜索、处理甚至验证数据。无论你是解析大量日志文件、清理用户输入数据还是在文本块中搜索特定模式，正则表达式都提供了一种简洁快速的方法来完成这项工作。

从本质上讲，Python 中的正则表达式通过内置于标准库中的 re 模块得到支持。此模块封装了正则表达式操作的所有功能，包括用于搜索、分割、替换和编译正则表达式的函数。理解正则表达式中使用的语法和特殊字符最初看起来可能令人生畏，但掌握这些语法和特殊字符可以极大地提高你的生产力和作为一名程序员的能力。

在本文中，我们将学习正则表达式的基础知识，包括常见用例、re 模块中的关键函数以及一些使你的表达式既有效又高效的技巧。无论你是编程新手还是希望提高你的模式匹配技能，Python 中的正则表达式都是一个值得学习的多功能工具。

Python 中正则表达式的优点

文本处理效率：快速搜索、匹配或替换文本中的模式。
多功能性：从数据验证到网络抓取，正则表达式都能派上用场。
简化的语法：Python 的 re 模块简化了正则表达式的实现。
模式匹配能力：能够匹配使用传统方法很难找到的复杂模式。

Python 中正则表达式的用法

正则表达式可以用于从简单的字符串匹配到复杂文本解析任务的各种场景，例如

数据验证（电子邮件、电话号码）
网络抓取
日志文件分析
机器学习任务中的文本数据预处理

对于那些希望在线尝试 Python 正则表达式的人来说，有许多平台和正则表达式测试器，它们可以提供即时反馈和学习。

示例：找到电子邮件地址

import re

text = "For more information, contact us at [email protected]."
match = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)

print("Email Address Found:", match)

示例：验证电话号码

import re

def validate_phone_number(number):
    if re.match(r'^\+?1?\d{9,15}$', number):
        return True
    return False

number = "+1234567890"
print("Is Valid Phone Number:", validate_phone_number(number))

探索 Python 中正则表达式的功能，为文本处理和数据操作开辟了新的可能性维度。无论是通过在线平台还是动手编码，掌握 regex 都是任何程序员工具包中的宝贵技能。

Python 正则表达式库的关键特性

Python 中的正则表达式有助于模式匹配、搜索和复杂的文本操作。
Python 正则表达式单词边界 (\b) 功能允许通过标记单词的开头或结尾进行精确搜索，从而提高文本处理任务的准确性。

示例：`findall()` 用法

在此示例中，我们使用 regex 在文本中查找特定单词的出现，演示了 Python 正则表达式单词边界的用法。

import re

text = "Python is powerful. Python is easy to learn."
pattern = r'\bPython\b'

matches = re.findall(pattern, text)
print("Occurrences of 'Python':", len(matches))

示例：验证电子邮件

在这里，我们使用正则表达式验证 email 地址，展示了 Python 中正则表达式的多功能性。

import re

def validate_email(email):
    pattern = r'^[\w\.-]+@[\w\.-]+\.\w+$'
    if re.match(pattern, email):
        return True
    return False

email = "[email protected]"
print("Is the email valid?", validate_email(email))

正则表达式匹配器

Python re 模块中的关键函数是 match 和 search，它们在正则表达式匹配中各有不同的用途。

匹配与搜索

python 匹配正则表达式：re.match() 函数仅检查字符串开头的匹配。如果模式不在开头，它将返回 None。
python 正则表达式搜索：与匹配相反，re.search() 扫描整个字符串，在文本中的任何位置查找匹配项。

以下两个示例演示了在 Python 中使用 re.match() 和 re.search()。

示例：使用 `re.match()`

import re

pattern = r"Python"
text = "Learning Python with regex"

match = re.match(pattern, text)

if match:
    print("Match found:", match.group())
else:
    print("No match found")

在此场景中，由于 Python 不在开头，re.match() 将返回 未找到匹配项。

示例：使用 `re.search()`

import re

pattern = r"Python"
text = "Learning Python with regex"

search = re.search(pattern, text)

if search:
    print("Match found:", search.group())
else:
    print("No match found")

在这里，re.search() 扫描整个字符串并成功找到 Python，返回 找到匹配项：Python。

了解 Python 正则表达式匹配中的匹配和 search 之间的区别对于有效地操作和搜索 Python 应用程序中的字符串至关重要。

正则表达式替换

您是否希望掌握 Python 正则表达式替换 的艺术？此强大技术允许您在字符串中搜索模式并用所需的文本替换它们，使数据操作比以往任何时候都更加顺畅。无论您是处理数据清理、处理还是甚至网络抓取，了解如何利用 Python 字符串替换正则表达式 可以显著提高您的编码效率。以下是一个简洁的指南，其中包含一些实用示例，以帮助您入门

使用 re.sub() 进行 Python 正则表达式全部替换

Python 中的 re 模块提供了一个名为 sub() 的方法，它代表替换。它是执行 python 替换所有正则表达式 操作的基石。语法很简单：re.sub(pattern, replacement, string)。此方法在给定的字符串中搜索模式并用替换字符串替换它。

示例：简单的单词替换

import re

text = "Hello World! Welcome to the World of Python."
new_text = re.sub(r"World", "Universe", text)
print(new_text)

输出：Hello Universe! Welcome to the Universe of Python.

此示例演示了如何用 Universe 替换给定字符串中 World 的所有实例。

示例：删除标点符号

import re

text = "Hello, World! How are you today?"
clean_text = re.sub(r"[,!.?]", "", text)
print(clean_text)

输出：Hello World How are you today

在此，我们有效地从字符串中删除所有常见的标点符号，展示了 re.sub() 在文本清理中的实用性。

使用 re.sub() 函数掌握Python 字符串替换正则表达式，提供了一种灵活而强大的方式来操作 Python 中的字符串。其搜索和替换模式的能力使其成为任何希望轻松执行复杂文本处理任务的人的宝贵工具。

请记住，熟练掌握Python 替换所有正则表达式的关键是实践。在你的项目中实现这些示例，你很快就会发现更多方法来利用 Python 的正则表达式功能简化你的代码。

正则表达式测试器

正在寻找一个 Python 正则表达式测试器来有效地验证和优化你的正则表达式吗？测试 Python 正则表达式模式在数据解析、清理和准备任务中至关重要。使用 Python 正则表达式测试器，你可以快速测试、调试和优化你的正则表达式，以匹配或提取你需要的精确数据集。

示例：按模式搜索电子邮件

import re

text = "Contact us at [email protected] or [email protected]"
pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

# Test Python regex
matches = re.findall(pattern, text)

for match in matches:
    print("Email found:", match)

示例：按模式搜索电话号码

import re

text = "Reach us at +1-555-123-4567 or +1-555-765-4321"
pattern = r"\+\d{1,3}-\d{3}-\d{3}-\d{4}"

# Python regex tester
matches = re.findall(pattern, text)

for match in matches:
    print("Phone number found:", match)

这些示例突出了 Python 正则表达式测试器在快速提取和验证数据模式中的实用性。无论你从事数据抓取、验证还是预处理任务，正则表达式都是 Python 工具包中宝贵的工具。通过利用 Python 正则表达式测试器，你可以确保你的表达式准确、高效，并为任何数据挑战做好准备。

精通 Python 正则表达式

对于任何需要高效管理、搜索或操作文本的人来说，Python 中的正则表达式（regex）都是必不可少的。无论你是希望提高你的编码技能还是简化你的数据处理任务，这份正则表达式 Python 备忘单都涵盖了基本模式、函数和提示，以增强你的编程工作流程。让我们深入了解正则表达式 Python 搜索函数，如何利用 python 正则表达式组功能进行复杂模式匹配，以及在哪里使用 python 正则表达式在线工具测试你的表达式。

基本正则表达式函数

search()：在字符串中查找模式的第一个出现。如果找到，则返回一个匹配对象，否则返回 None。

import re
result = re.search(r'\d+', 'Episode 8: The Last Stand')
print(result.group())  # Output: 8

findall()：返回字符串中模式的所有不重叠匹配，作为字符串列表。

import re
results = re.findall(r'\d+', '3 apples, 5 oranges, 9 berries')
print(results)  # Output: ['3', '5', '9']

用括号分组

正则表达式中的分组允许你选出匹配文本的部分。使用 group() 方法访问匹配的模式。

import re
pattern = re.compile(r'(\d+)([a-z]+)')
match = pattern.search("123abc")
print(match.group(1))  # Output: 123
print(match.group(2))  # Output: abc

在线测试你的正则表达式

在将复杂表达式集成到你的代码之前，请利用 python 正则表达式在线测试器，例如 Regex101。这些工具提供有关你的正则表达式模式及其匹配的实时反馈和有用的解释。

将这些正则表达式 Python 备忘单提示和函数纳入你的编程库中，将简化你的文本处理和数据分析任务。请记住，熟能生巧，尤其是在掌握 Python 中的正则表达式艺术时。

正则表达式 split() 方法

了解如何使用正则表达式（regex）有效地拆分 Python 中的字符串。Python 正则表达式拆分方法允许高级字符串拆分功能，超出了基本 split() 函数提供的功能。掌握 python 正则表达式拆分、python 正则表达式拆分或 python 按正则表达式拆分技术可以提升你在 Python 编程中的字符串操作技能。

要使用 Python 正则表达式拆分，你首先需要 import 包含 split 方法的 re 模块。这个强大的方法允许你通过正则表达式定义的模式的出现来拆分字符串。

示例：按逗号后跟空格拆分字符串

import re

# Example string
text = "Words, separated, by, commas."
# Splitting the string by comma followed by a space
words = re.split(r',\s', text)

print(words)
# Output: ['Words', 'separated', 'by', 'commas.']

在此示例中，\s 是一个匹配任何空白字符的正则表达式。与 , 结合使用，它有效地拆分字符串，无论何时找到逗号后跟空格。

示例：按多个分隔符拆分

import re

# Example string with multiple delimiters
text = "Words; separated by, different. delimiters!"
# Splitting by multiple delimiters: semicolon, comma, and period
words = re.split(r'[;,.]\s', text)

print(words)
# Output: ['Words', 'separated by', 'different', 'delimiters!']

在此，[;,.] 表示一个字符集，其中包含分号、逗号和句点。这允许在这些字符后跟空格的任何字符上进行拆分，展示了使用 python 按正则表达式拆分进行更复杂字符串操作任务的多功能性。

通过将 Python 正则表达式拆分整合到您的项目中，您可以解锁更高层次的字符串处理能力，从而实现更精确、更多样化的数据解析和操作技术。

如何使用 re.findall()

在字符串中发现所有与模式匹配的出现是数据处理和分析中的一项常见任务。Python 及其丰富的库生态系统通过 re 模块提供了一种直接的方法，尤其是在使用正则表达式 (regex) 时。在本文中，我们将探讨如何使用 Python 正则表达式函数查找所有匹配项，重点关注电子邮件提取等常见任务。

re.findall() Python 中的函数旨在检索字符串中模式的所有非重叠匹配项，并将其作为列表返回。此功能对于需要模式匹配的任务非常有用，例如从文本中提取电子邮件地址。

关键方法

re.findall(pattern, string, flags=0)：在字符串中搜索模式的所有匹配项，并将其作为列表返回。

对于更实际的应用，让我们使用 re.findall() 从文本中提取电子邮件地址

import re

text = "For more information, contact us at [email protected] or [email protected]."
email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

emails = re.findall(email_pattern, text)
print(emails)
# Output: ['[email protected]', '[email protected]']

正则表达式：sub() 和 search() 方法

在 Python 中，正则表达式 (regex) 用于字符串搜索和操作。此域中的两个强大函数是 regex.sub() 和 regex.search()。通过掌握这些函数，您可以在文本处理任务中高效地执行Python 正则表达式替换和搜索操作。

Python 正则表达式替换 re.sub()

Python 中的 re.sub() 函数用于Python 正则表达式替换。它用指定的替换项替换字符串中模式的出现。当您想以复杂的方式修改字符串时，它特别有用，包括使用Python 正则表达式子捕获组来操作匹配文本的特定部分。

import re

text = "2024 is the year of code"
# Replace all instances of a digit sequence with 'XXXX'
result = re.sub(r'\d+', 'XXXX', text)
print(result)  # Output: XXXX is the year of code

Python 中的正则表达式搜索

Python 中的 regex.search() 函数扫描字符串以查找指定正则表达式模式首次出现的位置。如果找到匹配项，它将返回一个匹配对象，如果未找到匹配项，则返回 None。这非常适合检查字符串中是否存在模式。

import re

text = "Reach me at [email protected]"
# Search for an email pattern
match = re.search(r'[\w\.-]+@[\w\.-]+', text)
if match:
    print("Email found:", match.group())  # Output: Email found: [email protected]
else:
    print("No email found.")

通过将 regex.search() 技术与正则表达式子捕获组功能结合使用，您可以实现全面的文本分析和操作。这些工具对于数据清理、解析和更复杂的文本处理任务至关重要。

深入了解该主题

正则表达式基本语法

与我们一起贡献！

不要犹豫，在 GitHub 上为 Python 教程做出贡献：创建分支，更新内容并发出拉取请求。

开始

Aliaksandr Sumich作者

Python 工程师，第三方 Web 服务集成专家。

更新时间：2024 年 05 月 03 日 - 22:44

Evgeniy Melnikov审阅者

已审阅并批准

Python 中的正则表达式

目录