본문 바로가기
Python

[Python] 괄호 안에 문자 제거하기(정규식)

by daewooki 2021. 11. 15.
반응형

텍스트를 전처리할 때 정규식은 아주 유용하다.

 

텍스트 내부에 괄호가 들어가있고, 괄호 내부의 문자를 모두 제거하는 작업이 필요해서 정규식을 작성했다. 

 

텍스트에서 괄호, 대괄호 내부에 있는 문자를 모두 제거하는 방법이다.

 

regex 패키지인 re를 import 한다.

 

대괄호"[]" 안의 내용을 지우려고 하면 아래와 같이 삭제하면 된다.

regex에서 대괄호를 괄호로 바꾸고 싶으면 \[, \]를 각각 \(, \)로 변경하면 된다. 

 

import re
text = '[파이썬] 괄호 안에 문자 제거'
regex = '\[[^)]+\]'
text = re.sub(regex, '', text)
print(text)

text = '(파이썬) 괄호 안에 문자 제거'
regex = '\([^)]+\)'
text = re.sub(regex, '', text)
print(text)

text = '[파이썬] 괄호 안에 문자 제거'
regex='\[.*\]|\s-\s.*'
text = re.sub(regex, '', text)
print(text)

 

실행 결과

반응형

댓글