(Natural Speech 2) Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

AI Paper Review

TTS를 대규모 다중 스피커 및 야생 데이터 세트로 확장하려면 화자의 신원, 발음 및 스타일(예: 노래)과 같은 인간 음성의 다양성을 포착할 수 있어야 한다. 현재의 large TTS 시스템은 보통 speech를 discrete한 토큰으로 양자화하고, language model을 사용하여 하나하나 토큰을 생성한다. 하지만 이런 방법은 안정적이지 않은 발음이나, 단어의 skipping/repeating 이슈, 나쁜 음질 등에... [Read More]

(VITS) Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

AI Paper Review

최근 end-to-end TTS 모델은 single-stage 학습과 병렬 샘플링을 가능하게 하는 방법들을 제안해 왔다. 하지만 샘플들의 퀄리티는 two-stage 시스템을 이길 수 없었다. 이 논문에서는 현재의 two-stage 모델보다 더 자연스러운 오디오를 생성해내는 병렬적 end-to-end 방법을 제안한다. 저자의 방법은 흐름을 정규화 하고 adversarial 학습 과정으로 증강된 variational inference를 채택한다. 이를 통해 생성 모델의... [Read More]

(YourTTS) Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone

AI Paper Review

yourTTS는 zero-shot multi-speaker TTS를 위한 강력한 다국어 접근 방식을 가져왔다. 저자의 방법은 VITS 모델을 기반으로 개발되었으며, zero-shot multi-speaker 과 다국어 학습이 가능하도록 몇가지 새로운 수정을 더하였다. 이 방법은 zero-shot multi-speaker TTS에서 SOTA 성능을 내었으며, VCTK 데이터셋에서 zero-shot voice conversion 또한 SOTA와 견줄만한 성능을 내었다. 게다가 저자의 접근 방식은 single-speaker 데이터셋으로... [Read More]

Null-text Inversion for Editing Real Images using Guided Diffusion Models

AI Paper Review

최근 text-guided diffusion 모델은 아주 강력한 이미지 생성 능력을 가지고 있다. 최근 많은 노력들로 인해서 이미지를 오직 텍스트로 수정할 수 있게 직관적이고 다재다능한 editing을 재공하게 되었다. 이런 SOTA tool들을 이용해서 이미지를 수정하기 위해서는 이미지를 의미있는 text prompt와 함께 pretrained model의 domain으로 바꾸어야 한다. 이 논문에서 저자는 정확한 inversion 테크닉을 소개한다.... [Read More]

High-Resolution Image Synthesis with Latent Diffusion Models

AI Paper Review

Diffusion Model은 Denoising auto encoder의 일련의 과정을 image formation의 과정으로 분해함으로써, 이미지 합성분야에서 SOTA를 달성했다. 게다가 이러한 모델들의 공식화는 재학습 없이 이미지 생성 프로세스를 제어하는 안내 메커니즘을 가능하게 한다. 하지만, 이러한 모델들은 직접적으로 pixel space에서 작동하기 때문에, 강력한 DM들을 최적화 하는 것은 종종 수많은 GPU days를 요하거나, inference 에 많은... [Read More]