반응형
이번에 영문 텍스트 데이터를 다루면서 특정 형태소만을 추출해야하는 경우가 있었다.
명사는 NN으로 시작한다던지.. 복수면 NNS일거라 예상을 하고 nltk에서 제공하는 태그 리스트를 확인해보았다.
구글링을 해보면 많은 분들이 엑셀이라던지 표 형식으로 많이 정리해두었는데 정확한 태그셋 확인 방법이 있다.
태그 확인 방법
(당연 nltk 는 설치가 되어 있겠죠?)
>>> import nltk
>>> nltk.download('tagsets')
'punkt', 'averaged_perceptron_tagger'와 같이 'tagsets' 라이브러리를 다운받아야한다.
다운 후에
>>> import nltk
>>> nltk.help.upenn_tagset()
명령어로 태그 목록을 확인할 수 있다.
총 45개의 태그가 나온다. 이쁘게 나오지는 않는다..
반응형
'NLP' 카테고리의 다른 글
[NLP] 자연어처리 필독 논문 100선 (0) | 2022.05.10 |
---|---|
[HuggingFace] 허깅페이스 모델 로컬에 다운 받기 (3) | 2022.04.19 |
[NLP] Korean Hate Speech Detection 한국어 비매너 뉴스 댓글 탐지 (0) | 2021.07.17 |
[NLP] 자연어처리 HuggingFace 뽀개기 (3) | 2021.06.16 |
댓글