[TTS] Text-To-Speech 음성 합성을 위한 AI허브 데이터 신청하기

AI 허브에서 제공 중인 감정 음성합성 데이터셋을 이용하여 음성 합성을 진행했다.

데이터 설명

데이터 구조

감정 음성합성 데이터셋 | AI 허브

다운로드 폴더 구성정보 데이터 다운로드는 PC에서만 가능합니다.

aihub.or.kr

다운을 받기 위해서는 먼저 AI 허브에 가입한 후 휴대폰 인증 절차를 거쳐야 한다.

휴대폰 본인 인증할 수 없는 경우 [데이터 신청서]를 작성하여 aihub@aihub.kr으로 보내도 된다고 한다.

휴대폰 인증을 한 후에 요청 목적을 선택해야 하는데, 개인 연구 및 공부 목적으로 신청했다.

신청 후에는 심사가 완료되어 승인이 되면 다운로드를 받을 수 있다.

마이페이지에서 확인이 가능하다. 승인은 보통 바로 나고, 승인 버튼을 누르면 아래와 같이 다운로드 창이 뜨게 된다.

약 4GB이다.

음성 - 텍스트가 pair로 들어있기 때문에 해당 데이터로 음성 합성을 시도했다.

이제 데이터 준비는 끝났다. (전처리를 해야하니 끝난게 끝난게 아니지만...-_-;)

Mel-Network에 해당하는 Tacotron2를 이용하여 mel-spectrogram을 만든 후에, Vocoder인 WaveNet으로 학습한 모델을 통해 음성 합성을 진행했다.

자세한 것은 다음 포스팅에서 음성 합성기 구축기를 작성하겠다.

[TTS] Python으로 Text-To-Speech 음성 합성 구축하기-1 (0)	2022.02.04

우키독스