(DaGAN) Depth-Aware Generative Adversarial Network for Talking Head Video Generation

AI Paper Review

말하는 얼굴 생성 기술은, source 이미지의 identity와 driving video의 pose를 합성된 얼굴이 포함해야한다. 현재 존재하는 방법들은 input 이미지로 부터 추출한 2D representation (appearance, motion)에 지나치게 의존한다. 하지만 Dense 3D facial geometry (pixel-wise depth)가 정확한 3D 얼굴 구조를 생성하고, 백그라운드로부터 noisy 정보를 구별할 수 있게 하기 때문에 이 작업에서는 매우 중요하다.... [Read More]

(PP-LiteSeg) A Superior Real-Time Semantic Segmentation Model

AI Paper Review

비록 semantic segmentation은 딥러닝으로 눈부신 비약을 이루었지만 실시간 방법의 성능은 만족스럽지 않다. 그래서, PP-LiteSeg는 real-time semantic segmentation task 를 제안한다. 특히, 저자는 유연하면서도, lightweight Decoder(FLD)를 사용하여 이전의 디코더에서 계산량을 줄였다. reature representation의 힘을 늘리기 위해, 저자는 spatial, channel attention의 장점을 사용하여 input feature에 weight를 주는 unified Attention Fusion Module (UAFM)을... [Read More]

(Background Splitting) Finding Rare Classes in a Sea of Background

AI Paper Review

저자는 real-world에서 rare category를 가지고 deep model의 image classification 학습 정확도를 올릴 수 있는 문제에 관심을 가졌다. 이 시나리오에서 dataset의 거의 대부분의 이미지들은 background category에 포함된다. (>95%) 저자는 일반적인 fine-tuning 방식과 SOTA imbalanced dataset에 대한 접근 방식 모두에 대해 증명하였다. 아주 주요한 발견은 background class로 인한 극심한 imbalance 문제는 기존의... [Read More]

(SimSwap) An Efficient Framework For High Fidelity Face Swapping

AI Paper Review

고화질의 face swap 이미지를 만들기 위한 새로운 프레임워크로 Simple Swap (SimSwap)을 제안한다. 이전의 접근 방식들은 임의의 identity에 대해서 일반화 하기 힘들거나, 표정, 눈동자 방향을 등을 보존하는데 실패하였다. SimSwap은 임의의 얼굴에 대해서 target face의 특징을 유지하면서 효과적으로 transferring을 수행할 수 있다. 저자는 위에서 언급한 defact를 극복하기 위해서 두가지 방법을 사용하였다. 첫째는,... [Read More]

(Scaled-YOLOv4) Scaling Cross Stage Partial Network

AI Paper Review

이 논문은 YOLO v4 object detection 네트워크를 통해서 CSP(Cross Stage Partial) 접근 방식을 이용하여 속도와 정확성을 유지하며 모델의 확장 및 축소가 가능함을 보인다. 이 논문에서 제안하는 Network Scaling 접근 방식은 Depth, width, resolution 뿐만 아니라 네트워크의 구조도 변경시킨다. YOLO v4-large 모델은 COCO dataset에서 SOTA를 달성 했으며, Tesla V100에서 16 FPS의... [Read More]