반응형
AI 허브에서 제공 중인 감정 음성합성 데이터셋을 이용하여 음성 합성을 진행했다.
데이터 설명
- 30대 여성 성우 1인, 7가지 감정에 대하여 각각 3,000개 발화, 총 21,000개 음성 파일
데이터 구조
- raw 폴더 아래에 acriil_(감정)_(문장번호).raw 파일 존재
- 해당 파일은 16bit, mono, 16KHz, PCM format의 음성 파일임
- txt 폴더 아래에 acriil_(감정)_(문장번호).txt 파일이 해당 pcm 파일의 텍스트
- 실제 발화 내용(발음)에 따라 텍스트가 수정되었으므로 txt 파일은 감정에 따라 상이할 수 있음
링크: https://aihub.or.kr/opendata/keti-data/definition-tech/KETI-05-001
다운을 받기 위해서는 먼저 AI 허브에 가입한 후 휴대폰 인증 절차를 거쳐야 한다.
휴대폰 본인 인증할 수 없는 경우 [데이터 신청서]를 작성하여 aihub@aihub.kr으로 보내도 된다고 한다.
휴대폰 인증을 한 후에 요청 목적을 선택해야 하는데, 개인 연구 및 공부 목적으로 신청했다.
신청 후에는 심사가 완료되어 승인이 되면 다운로드를 받을 수 있다.
마이페이지에서 확인이 가능하다. 승인은 보통 바로 나고, 승인 버튼을 누르면 아래와 같이 다운로드 창이 뜨게 된다.
약 4GB이다.
음성 - 텍스트가 pair로 들어있기 때문에 해당 데이터로 음성 합성을 시도했다.
이제 데이터 준비는 끝났다. (전처리를 해야하니 끝난게 끝난게 아니지만...-_-;)
Mel-Network에 해당하는 Tacotron2를 이용하여 mel-spectrogram을 만든 후에, Vocoder인 WaveNet으로 학습한 모델을 통해 음성 합성을 진행했다.
자세한 것은 다음 포스팅에서 음성 합성기 구축기를 작성하겠다.
반응형
'Speech' 카테고리의 다른 글
[TTS] Python으로 Text-To-Speech 음성 합성 구축하기-1 (0) | 2022.02.04 |
---|
댓글