본문 바로가기
NLP

[NLP] NLTK 형태소 분석기 POS(Part of Speech) tag 리스트

by daewooki 2021. 9. 7.
반응형

이번에 영문 텍스트 데이터를 다루면서 특정 형태소만을 추출해야하는 경우가 있었다. 

 

명사는 NN으로 시작한다던지.. 복수면 NNS일거라 예상을 하고 nltk에서 제공하는 태그 리스트를 확인해보았다.

 

구글링을 해보면 많은 분들이 엑셀이라던지 표 형식으로 많이 정리해두었는데 정확한 태그셋 확인 방법이 있다.

 

 

태그 확인 방법

(당연 nltk 는 설치가 되어 있겠죠?)

 

>>> import nltk

>>> nltk.download('tagsets')

 

'punkt', 'averaged_perceptron_tagger'와 같이 'tagsets' 라이브러리를 다운받아야한다.

 

다운 후에 

>>> import nltk

>>> nltk.help.upenn_tagset() 

 

명령어로 태그 목록을 확인할 수 있다. 

 

총 45개의 태그가 나온다. 이쁘게 나오지는 않는다.. 

반응형

댓글