First Order Motion Model for Image Animation

AI Paper Review

Image animation은 source image를 driving video와 같은 움직임을 갖도록 비디오 sequence 를 생성해내는 기술이다. 이 논문은 어떠한 사전 annotation 이나 정보 없이 특정한 object를 움직일 수있게 만드는 솔루션을 제안한다. 같은 카테고리의 물체의 비디오 데이터 셋에 대해서 학습한 이후에는 같은 카테고리의 어떤 object로도 animating 을 적용할 수 있다. 저자의 프레임워크는 다양한... [Read More]

(MakeItTalk) Speaker-Aware Talking-Head Animation Rendering

AI Paper Review

오직 한 장의 얼굴 이미지와 오디오 input으로 말하는 영상을 만들어내는 방법을 제안한다. 오디오로부터 직접적으로 픽셀을 생성해내는 기존의 방식과 다르게, 먼저 input 오디오에서 content와 화자의 정보를 분리해낸다. 오디오 content는 강인하게 얼굴 영역과 입술의 움직임을 컨트롤하고, 화자에 대한 정보는 얼굴의 표정의 특징과 고개의 움직임을 컨트롤한다. 이 방법의 또 다른 주요 요소는 얼굴의... [Read More]

(PIRenderer) Controllable Portrait Image Generation via Semantic Neural Rendering

AI Paper Review

이 논문에서는 얼굴에 대한 모션을 3d morphable face model을 이용해서 컨트롤하는 Portrait Image Neural Renderer 를 제안한다. 이 모델은 photo-realistic portrait image를 정교한 modification으로 생성해낸다. 더욱이 이 모델은 오디오로부터 sequential motion을 추출하여 audio-driven facial reenactment task도 수행할 수 있다. 이 모델은 하나의 reference image와 driving audio stream 으로부터 설득력 있는... [Read More]

Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis

AI Paper Review

GAN에서 높은 성능을 내기 위해서는 large-scale의 CPU cluster와 다양하고 많은 training image가 필요하다. 이 논문에서는 few-shot image 합성을 적은 계산 비용으로 수행하는 법을 연구한다. 저자는 1024x1024 해상도에서 뛰어난 성능을 낼 수 있는 light-weight GAN 구조를 제안한다. 모델은 단지 몇시간안에 하나의 RTX-2080 GPU 에서 수렴하고, 학습 데이터가 100개 이하더라도 학습 성능을... [Read More]

Adaptive semantic attribute decoupling for precise face image editing

AI Paper Review

사용자가 특정한 얼굴의 특징을 정교하게 수정하는 어플리케이션은 다양한 영역에서 사용되고 있다. (virtual makeup, face aging, facial expression transfer, face synthesis) 하지만 높은 레벨의 사람 인지능력과 latent space의 특징 벡터간의 갭 때문에, 개개인의 얼굴 특징을 조절하는 것은 매우 어렵다. 이 논문에서는 의미론적인 disentaglement 알고리즘을 이용하여 개인의 얼굴에 adaptive하게 attribute 를 조절하는... [Read More]