본문 바로가기
Speech

[TTS] Text-To-Speech 음성 합성을 위한 AI허브 데이터 신청하기

by daewooki 2022. 2. 4.
반응형

AI 허브에서 제공 중인 감정 음성합성 데이터셋을 이용하여 음성 합성을 진행했다. 

 

데이터 설명

  • 30대 여성 성우 1인, 7가지 감정에 대하여 각각 3,000개 발화, 총 21,000개 음성 파일

데이터 구조

  • raw 폴더 아래에 acriil_(감정)_(문장번호).raw 파일 존재 
  • 해당 파일은 16bit, mono, 16KHz, PCM format의 음성 파일임
  • txt 폴더 아래에 acriil_(감정)_(문장번호).txt 파일이 해당 pcm 파일의 텍스트
  • 실제 발화 내용(발음)에 따라 텍스트가 수정되었으므로 txt 파일은 감정에 따라 상이할 수 있음

 

링크: https://aihub.or.kr/opendata/keti-data/definition-tech/KETI-05-001

 

감정 음성합성 데이터셋 | AI 허브

다운로드 폴더 구성정보 데이터 다운로드는 PC에서만 가능합니다.

aihub.or.kr

 

다운을 받기 위해서는 먼저 AI 허브에 가입한 후 휴대폰 인증 절차를 거쳐야 한다.

휴대폰 본인 인증할 수 없는 경우 [데이터 신청서]를 작성하여 aihub@aihub.kr으로 보내도 된다고 한다.

휴대폰 인증을 한 후에 요청 목적을 선택해야 하는데, 개인 연구 및 공부 목적으로 신청했다.

신청 후에는 심사가 완료되어 승인이 되면 다운로드를 받을 수 있다.

 

마이페이지에서 확인이 가능하다.  승인은 보통 바로 나고, 승인 버튼을 누르면 아래와 같이 다운로드 창이 뜨게 된다.

 

약 4GB이다. 

 

음성 - 텍스트가 pair로 들어있기 때문에 해당 데이터로 음성 합성을 시도했다.

 

 

이제 데이터 준비는 끝났다. (전처리를 해야하니 끝난게 끝난게 아니지만...-_-;)

Mel-Network에 해당하는 Tacotron2를 이용하여 mel-spectrogram을 만든 후에, Vocoder인 WaveNet으로 학습한 모델을 통해 음성 합성을 진행했다.

자세한 것은 다음 포스팅에서 음성 합성기 구축기를 작성하겠다. 

 

반응형

'Speech' 카테고리의 다른 글

[TTS] Python으로 Text-To-Speech 음성 합성 구축하기-1  (0) 2022.02.04

댓글