Регулярные выражения в python

Regular Expression Patterns

Except for control characters, (+ ? . * ^ $ ( ) { } | \), all characters match themselves. You can escape a control character by preceding it with a backslash.

Following table lists the regular expression syntax that is available in Python −

Sr.No. Pattern & Description


Matches beginning of line.



Matches end of line.



Matches any single character except newline. Using m option allows it to match newline as well.


Matches any single character in brackets.


Matches any single character not in brackets



Matches 0 or more occurrences of preceding expression.



Matches 1 or more occurrence of preceding expression.



Matches 0 or 1 occurrence of preceding expression.


re{ n}

Matches exactly n number of occurrences of preceding expression.


re{ n,}

Matches n or more occurrences of preceding expression.


re{ n, m}

Matches at least n and at most m occurrences of preceding expression.


a| b

Matches either a or b.



Groups regular expressions and remembers matched text.



Temporarily toggles on i, m, or x options within a regular expression. If in parentheses, only that area is affected.



Temporarily toggles off i, m, or x options within a regular expression. If in parentheses, only that area is affected.


(?: re)

Groups regular expressions without remembering matched text.


(?imx: re)

Temporarily toggles on i, m, or x options within parentheses.


(?-imx: re)

Temporarily toggles off i, m, or x options within parentheses.





(?= re)

Specifies position using a pattern. Doesn’t have a range.


(?! re)

Specifies position using pattern negation. Doesn’t have a range.


(?> re)

Matches independent pattern without backtracking.



Matches word characters.



Matches nonword characters.



Matches whitespace. Equivalent to .



Matches nonwhitespace.



Matches digits. Equivalent to .



Matches nondigits.



Matches beginning of string.



Matches end of string. If a newline exists, it matches just before newline.



Matches end of string.



Matches point where last match finished.



Matches word boundaries when outside brackets. Matches backspace (0x08) when inside brackets.



Matches nonword boundaries.


\n, \t, etc.

Matches newlines, carriage returns, tabs, etc.



Matches nth grouped subexpression.



Matches nth grouped subexpression if it matched already. Otherwise refers to the octal representation of a character code.

Major new features of the 3.9 series, compared to 3.8

Some of the new major new features and changes in Python 3.9 are:

  • PEP 573, Module State Access from C Extension Methods
  • PEP 584, Union Operators in
  • PEP 585, Type Hinting Generics In Standard Collections
  • PEP 593, Flexible function and variable annotations
  • PEP 602, Python adopts a stable annual release cadence
  • PEP 614, Relaxing Grammar Restrictions On Decorators
  • PEP 615, Support for the IANA Time Zone Database in the Standard Library
  • PEP 616, String methods to remove prefixes and suffixes
  • PEP 617, New PEG parser for CPython
  • BPO 38379, garbage collection does not block on resurrected objects;
  • BPO 38692, os.pidfd_open added that allows process management without races and signals;
  • BPO 39926, Unicode support updated to version 13.0.0;
  • BPO 1635741, when Python is initialized multiple times in the same process, it does not leak memory anymore;
  • A number of Python builtins (range, tuple, set, frozenset, list, dict) are now sped up using PEP 590 vectorcall;
  • A number of Python modules (_abc, audioop, _bz2, _codecs, _contextvars, _crypt, _functools, _json, _locale, operator, resource, time, _weakref) now use multiphase initialization as defined by PEP 489;
  • A number of standard library modules (audioop, ast, grp, _hashlib, pwd, _posixsubprocess, random, select, struct, termios, zlib) are now using the stable ABI defined by PEP 384.

You can find a more comprehensive list in this release’s «What’s New» document.

Группирующие скобки (…) и match-объекты в питоне


Если функции , не находят соответствие шаблону в строке, то они возвращают , функция возващает пустой итератор.
Однако если соответствие найдено, то возвращается -объект.
Эта штука содержит в себе кучу полезной информации о соответствии шаблону.
В отличие от предыдущих функций, возвращает «простой и понятный» список соответствий.
Полный набор атрибутов -объекта можно посмотреть в , а здесь приведём самое полезное.

Метод Описание Пример
Подстрока, соответствующая всему шаблону
Индекс в исходной строке, начиная с которого идёт найденная подстрока
Индекс в исходной строке, который следует сразу за найденной подстрока

Группирующие скобки

Если в шаблоне регулярного выражения встречаются скобки без , то они становятся группирующими.
В match-объекте, который возвращают , и , по каждой такой группе можно получить ту же информацию, что и по всему шаблону. А именно часть подстроки, которая соответствует , а также индексы начала и окончания в исходной строке. Достаточно часто это бывает полезно.

import re
pattern = r'\s*(+)(\d+)\s*'
string = r'---   Опять45   ---'
match = re.search(pattern, string)
print(f'Найдена подстрока >{match.group(0)}< с позиции {match.start(0)} до {match.end(0)}')
print(f'Группа букв >{match.group(1)}< с позиции {match.start(1)} до {match.end(1)}')
print(f'Группа цифр >{match.group(2)}< с позиции {match.start(2)} до {match.end(2)}')
# Найдена подстрока >   Опять45   < с позиции 3 до 16
# Группа букв >Опять< с позиции 6 до 11
# Группа цифр >45< с позиции 11 до 13

Тонкости со скобками и нумерацией групп.

Если к группирующим скобкам применён квантификатор (то есть указано число повторений), то подгруппа в match-объекте будет создана только для последнего соответствия.
Например, если бы в примере выше квантификаторы были снаружи от скобок , то вывод был бы таким:

Найдена подстрока >   Опять45   < с позиции 3 до 16
Группа букв >ь< с позиции 10 до 11
Группа цифр >5< с позиции 12 до 13

Внутри группирующих скобок могут быть и другие группирующие скобки.
В этом случае их нумерация производится в соответствии с номером появления открывающей скобки с шаблоне.

import re
pattern = r'((\d)(\d))((\d)(\d))'
string = r'123456789'
match = re.search(pattern, string)
print(f'Найдена подстрока >{match.group(0)}< с позиции {match.start(0)} до {match.end(0)}')
for i in range(1, match.groups()+1):
    print(f'Группа №{i} >{match.group(i)}< с позиции {match.start(i)} до {match.end(i)}')
Найдена подстрока >1234< с позиции 0 до 4
Группа №1 >12< с позиции 0 до 2
Группа №2 >1< с позиции 0 до 1
Группа №3 >2< с позиции 1 до 2
Группа №4 >34< с позиции 2 до 4
Группа №5 >3< с позиции 2 до 3
Группа №6 >4< с позиции 3 до 4

Группы и

Если в шаблоне есть группирующие скобки, то вместо списка найденных подстрок будет возвращён список кортежей, в каждом из которых только соответствие каждой группе. Это не всегда происходит по плану, поэтому обычно нужно использовать негруппирующие скобки .

import re
print(re.findall(r'(+)(\d*)', r'foo3, im12, go, 24buz42'))
# -> 

Группы и

Если в шаблоне нет группирующих скобок, то работает очень похожим образом на .
А вот если группирующие скобки в шаблоне есть, то между каждыми разрезанными строками будут все соответствия каждой из подгрупп.

import re
print(re.split(r'(\s*)([+*/-])(\s*)', r'12  +  13*15   - 6'))
# -> 

Importance of Regular Expressions

In last few years, there has been a dramatic shift in usage of general purpose programming languages for data science and machine learning. This was not always the case – a decade back this thought would have met a lot of skeptic eyes!

This means that more people / organizations are using tools like Python / JavaScript for solving their data needs. This is where Regular Expressions become super useful. Regular expressions are normally the default way of data cleaning and wrangling in most of these tools. Be it extraction of specific parts of text from web pages, making sense of twitter data or preparing your data for text mining – Regular expressions are your best bet for all these tasks.

Given their applicability, it makes sense to know them and use them appropriately.

Major new features of the 3.8 series, compared to 3.7

  • PEP 572, Assignment expressions
  • PEP 570, Positional-only arguments
  • PEP 587, Python Initialization Configuration (improved embedding)
  • PEP 590, Vectorcall: a fast calling protocol for CPython
  • PEP 578, Runtime audit hooks
  • PEP 574, Pickle protocol 5 with out-of-band data
  • Typing-related: PEP 591 (Final qualifier), PEP 586 (Literal types), and PEP 589 (TypedDict)
  • Parallel filesystem cache for compiled bytecode
  • Debug builds share ABI as release builds
  • f-strings support a handy specifier for debugging
  • is now legal in blocks
  • on Windows, the default event loop is now
  • on macOS, the spawn start method is now used by default in
  • can now use shared memory segments to avoid pickling costs between processes
  • is merged back to CPython
  • is now 40% faster
  • now uses Protocol 4 by default, improving performance

There are many other interesting changes, please consult the «What’s New» page in the documentation for a full list.

Разность re.match и re.search

re.match соответствует только начало строки, если начало строки не соответствует регулярному выражению, совпадение не найдено, функция возвращает None, и re.search совпадают со строкой, пока не найдет совпадения.



import re

line = "Cats are smarter than dogs";

matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
   print ("match --> matchObj.group() : ", matchObj.group())
   print ("No match!!")

matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
   print ("search --> matchObj.group() : ", matchObj.group())
   print ("No match!!")
No match!!
search --> matchObj.group() :  dogs

[Коллекция] Каковы различные квантификаторы Python Re?

Если вы хотите использовать (и понимать) регулярные выражения на практике, вам нужно знать самые важные квантования, которые могут быть применены к любому Regeex (включая Regex dotex)!

Так что давайте погрузимся в другие регеисы:

Wild-Card («DOT») соответствует любому символу в строке, кроме нового символа «\ N».
Regex ‘…’ соответствует всем словам с тремя символами, такими как «abc», «Cat» и «собака».
Звездочка нулевой или больше соответствует произвольному количеству вхождений (включая нулевые вхождения) непосредственно предшествующего Regex.
Regex ‘Cat *’ соответствует строкам «CA», «CAT», «CATT», «CATTT» и «CATTTTTTT». —
Матчи ноль или один (как следует из названия) либо ноль, либо в одних случаях непосредственно предшествующего Regex.
Regex ‘Cat?’ Соответствует обеим струнам «Ca» и «CAT» – но не «CATT», «CATTT» и «CATTTTTTT».
По меньшей мере, один соответствует одному или нескольким вхождению непосредственно предшествующего регеек.
Regex ‘Cat +’ не соответствует строке «CA», а соответствует всем строкам, по меньшей мере, одним задним характером «T», такими как «кошка», «CATT» и «CATTT».
Начальная строка соответствует началу строки.
Regex ‘^ p’ соответствует строкам «Python» и «программирование», но не «Lisp» и «шпионить», где символ «p» не происходит в начале строки.
Конец строки соответствует концу строки.
Regex ‘Py $’ будет соответствовать строкам «Main.py» и «Pypy», но не строки «Python» и «pypi».
A | B.
Или соответствует либо регезе A или REGEX B

Обратите внимание, что интуиция сильно отличается от стандартной интерпретации или оператора, который также может удовлетворить оба условия.
Regex ‘(Hello) | (Привет) «Соответствует строки« Hello World »и« Привет Python ». Было бы не иметь смысла попытаться сопоставить их обоих одновременно.
И совпадает с первым регелем А и второе регулярное выражение в этой последовательности.
Мы уже видели его тривиально в Regex ‘Ca’, которое соответствует первым Regex ‘C’ и Second Regex ‘A’.

Обратите внимание, что я дал вышеупомянутые операторы некоторых более значимых имен (жирным шрифтом), чтобы вы могли немедленно понять цель каждого Regex. Например, Оператор обычно обозначается как оператор «Caret»

Эти имена не описаны Поэтому я придумал более детские сады, такие как оператор «Пусковая строка».

Мы уже видели много примеров, но давайте погрузимся еще больше!

import re

text = '''
    Ha! let me see her: out, alas! he's cold:
    Her blood is settled, and her joints are stiff;
    Life and these lips have long been separated:
    Death lies on her like an untimely frost
    Upon the sweetest flower of all the field.

print(re.findall('.a!', text))
Finds all occurrences of an arbitrary character that is
followed by the character sequence 'a!'.


print(re.findall('is.*and', text))
Finds all occurrences of the word 'is',
followed by an arbitrary number of characters
and the word 'and'.


print(re.findall('her:?', text))
Finds all occurrences of the word 'her',
followed by zero or one occurrences of the colon ':'.


print(re.findall('her:+', text))
Finds all occurrences of the word 'her',
followed by one or more occurrences of the colon ':'.


print(re.findall('^Ha.*', text))
Finds all occurrences where the string starts with
the character sequence 'Ha', followed by an arbitrary
number of characters except for the new-line character. 
Can you figure out why Python doesn't find any?

print(re.findall('n$', text))
Finds all occurrences where the new-line character 'n'
occurs at the end of the string.


print(re.findall('(Life|Death)', text))
Finds all occurrences of either the word 'Life' or the
word 'Death'.


В этих примерах вы уже видели специальный символ который обозначает нового стилевого символа в Python (и большинство других языках). Есть много специальных символов, специально предназначенных для регулярных выражений.

Modifying Strings¶

Up to this point, we’ve simply performed searches against a static string.
Regular expressions are also commonly used to modify strings in various ways,
using the following pattern methods:



Split the string into a list, splitting it
wherever the RE matches

Find all substrings where the RE matches, and
replace them with a different string

Does the same thing as , but
returns the new string and the number of

Splitting Strings

The method of a pattern splits a string apart
wherever the RE matches, returning a list of the pieces. It’s similar to the
method of strings but provides much more generality in the
delimiters that you can split by; string only supports splitting by
whitespace or by a fixed string. As you’d expect, there’s a module-level
function, too.

(string, maxsplit=0)

Split string by the matches of the regular expression. If capturing
parentheses are used in the RE, then their contents will also be returned as
part of the resulting list. If maxsplit is nonzero, at most maxsplit splits
are performed.

You can limit the number of splits made, by passing a value for maxsplit.
When maxsplit is nonzero, at most maxsplit splits will be made, and the
remainder of the string is returned as the final element of the list. In the
following example, the delimiter is any sequence of non-alphanumeric characters.

>>> p = re.compile(r'\W+')
>>> p.split('This is a test, short and sweet, of split().')

>>> p.split('This is a test, short and sweet, of split().', 3)

Sometimes you’re not only interested in what the text between delimiters is, but
also need to know what the delimiter was. If capturing parentheses are used in
the RE, then their values are also returned as part of the list. Compare the
following calls:

>>> p = re.compile(r'\W+')
>>> p2 = re.compile(r'(\W+)')
>>> p.split('This... is a test.')

>>> p2.split('This... is a test.')

The module-level function adds the RE to be used as the first
argument, but is otherwise the same.

>>> re.split(r'+', 'Words, words, words.')

>>> re.split(r'(+)', 'Words, words, words.')

>>> re.split(r'+', 'Words, words, words.', 1)

Как сопоставить точечный персонаж (без особого значения)?

Если вы используете символ В регулярном выражении Питон предполагает, что это точечный оператор, о котором вы говорите. Но что, если вы действительно хотите сопоставить точку, например, чтобы соответствовать периоду в конце предложения?

Ничего проще, чем это: избежать точечного регулятора, используя обратную косание: Отказ Обратная черта не обнаруживает значение специального символа в Regex. Двигатель Regex теперь знает, что вы на самом деле ищете точечный персонаж, а не произвольный символ, кроме новой строки.

Вот пример:

>>> import re
>>> text = 'Python. Is. Great. Period.'
>>> re.findall('\.', text)

Метод возвращает все четыре периода в предложении в качестве сопоставления подстроки для Regex Отказ

В этом примере вы узнаете, как вы можете объединить его с другими регулярными выражениями:

>>> re.findall('\.\s', text)

Теперь вы ищете период срока, а затем произвольный пробел. В тексте только три таких соответствующих подстроки.

В следующем примере вы узнаете, как объединить это с классом персонажа:

>>> re.findall('\.', text)

Вы хотите найти либо персонаж или характер сопровождается символом периода . Две подстроки соответствуют этому Regex.

Обратите внимание, что пропуская обратная косание требуется. Если вы забудете это, это может привести к странному поведению:

>>> re.findall('.', text)

Как произвольный символ разрешен после класса персонажа, подстрока также соответствует Regex.

Как работает метод findall () в Python?

Метод сканирует от слева направо , в поисках всех не перекрывающиеся матчи из . Возвращает Список строк в порядке сопоставления при сканировании строки слева направо.

Спецификация :

re.findall(pattern, string, flags=0)

Метод имеет до трех аргументов.

  • : Регулярное выражение выражения, которое вы хотите сопоставить.
  • : Строка, которую вы хотите искать шаблон.
  • (Необязательный аргумент): более продвинутый модификатор, который позволяет настроить поведение функции. Хотите знать Как использовать эти флаги? Проверьте эту подробную статью на блог Finxter.

Мы посмотрим на каждого из них более подробно.

Возвращаемое значение:

Метод возвращает список строк. Каждый строковый элемент представляет собой соответствующую подстроку строкового аргумента.

Давайте проверим несколько примеров!

