* 논문을 읽고 개인 생각과 함께 요약한 글이다.
최근 액티브 러닝(Active Learning)에 대해 공부를 할 기회가 생겼다.
텍스트 분류 관련해서 연구를 하고 있는데 수집된 데이터가 많지 않아서 Active Learning을 적용하고자 했다.
액티브 러닝에 대한 지식이 하나도 없기 때문에 바로 서베이 논문부터 찾았다.
Active Learnig에 대한 다른 서베이 논문도 있었지만 Text Classification에 맞는 서베이 논문을 찾았다.
논문 링크: https://arxiv.org/pdf/2008.07267.pdf
2020년 8월 17일 arXiv에 게재된 서베이 논문이다.
총 16페이지 정도이지만 reference 빼면 내용은 10페이지 정도이다.
먼저 Auto Labeling과 비슷하다고 생각했던 Active Learning은 Auto Labeling과는 명확히 차이점이 있었다.
단순히 자동으로 라벨링을 해주는게 아니라 사람의 개입이 꼭 필요하다.
딱 아래 그림으로 active learning을 정의할 수 있다.
결론적으로 Active Learning은 Auto Labeling과의 상호보완적인 관계가 아닐까 싶다.
Active Learning이 잘 되어야 Auto Labeling도 잘된다.
Active Learning 기법에는 여러가지 전략이 있지만 이 논문에서는 딥러닝을 이용한 액티브 러닝에 대해 설명한다.
서론
많은 분들이 알겠지만 라벨링을 하는데에는 많은 시간이 든다. 최근에는 정부나 데이터진흥원에서 데이터 라벨링 교육도 진행하는 것으로 안다. 데이터의 퀄리티에 의해 성능이 결정되기 때문이다. 좋은 데이터를 수집하기 위해 많은 시간과 돈을 쓰고 있다.
데이터 라벨링하는데에 있어서 도메인 지식은 어느정도 필요하다. 도메인 지식을 갖추고 라벨링을 완료하는데까지 소요되는 시간은 적지 않다. (텍스트 분류 같은 경우 하루에 10만건 정도의 텍스트를 본 적이 있는데 눈이 빠질 것 같았다.)
이미지보다도 NLP분야에서의 라벨링은 정말 어렵다고 생각한다.
Active Learning의 궁극적인 목표는 사람의 힘으로 라벨링 되는 시간을 줄이는 것이다.
AL의 세가지 시나리오가 있다고 한다.
1. Pool-based: Pool이라고 하는 레이블이 지정되지 않은 인스턴스 세트에 액세스할 수 있음
2. Stream-based; 한 번에 하나의 인스턴스를 받고 이를 유지하거나 폐기할 수 있는 옵션이 있음
3. Membership query synthesis; 레이블을 지정할 새로운 인스턴스를 생성하는 쿼리 작성 방식
Pool-based 방식을 많이 사용하는데, 보통 batch모드로 진행한다.
텍스트 분류를 예로 들면, 아직 라벨링이 되지 않은 데이터를 배치 방식으로 active learning을 할 때 사용자에게 재트레이닝 횟수를 줄여줄 수 있다.
Active Learning의 기본적인 아이디어는 전체 데이터셋에 대해 표현할 수 있는 대표적인 인스턴스가 거의 없다는 것이다. 전체데이터의 더 작은 일부 데이터가 계산 비용을 줄일 뿐만 아니라 Active Learning이 전체 데이터 집합에서 학습하는 것과 비교하여 결과 모델의 품질을 향상시킬 수도 있음이 나타났다고 한다.
AL은 Text Classification(텍스트 분류), Named Entity Recognition(명명된 엔터티 인식) 또는 Machine Translation(기계 번역)에서 많이 사용되고 있고 여전히 활발한 연구 영역이다.
최근에는 데이터가 부족하기 때문에 Transfer Learning(전이 학습)을 이용해서 많이 극복하고 있는 추세이다.
BERT pretrained model 등을 이용하여 transfer learning을 통해 성능을 많이 올리고 있다.
Active Learning으로 데이터가 부족한 이슈를 해결하는 것을 알아보기 위해서 이 논문에서는 아래와 같은 contribution을 제시한다.
Contributions
1. 쿼리 전략의 분류를 제공하고 텍스트 분류를 위한 AL과 관련된 전략을 분류한다.
2. AL, 텍스트 분류 및 (D)NN의 교집합이 되는 연구를 조사한다.
3. 최근 텍스트 분류의 발전이 정리되고 AL 프로세스와 관련되어있다. AL에 채택되었는지 여부와 정도를 조사한다.
4. 기존 연구의 실험 설정을 데이터 세트, 모델 및 쿼리 전략에 대해 집합적으로 분석하여 실험의 최근 경향, 공통점 및 단점을 식별한다.
5. 연구 격차를 식별하고 향후 연구 방향을 설명한다.
관련 연구
- Uncertainty-based query strategies
- heterogenity-based
- performance-based
- representativeness-based
- Olsson
- KimCNN
- etc.
본론
*/ 작성중 /*
* 액티브 러닝에 대해 잘 정리해둔 블로그가 있어서 공유합니다.
'Paper Review' 카테고리의 다른 글
Translatotron: Direct speech-to-speech translation with a sequence-to-sequence model 리뷰 (0) | 2021.06.25 |
---|
댓글