(SadTalker) Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

AI Paper Review

얼굴 이미지와 음성 오디오를 통해 말하는 머리 동영상을 생성하는 것은 여전히 많은 어려움을 포함하고 있습니다. 즉, 자연스럽지 않은 머리 움직임, 왜곡된 표정 및 정체성 수정 등의 문제가 있습니다. 이러한 문제들은 주로 결합된 2D 동작 필드에서 학습되는 것 때문이라고 주장합니다. 반면에 명시적으로 3D 정보를 사용하는 것도 표정이 뻣뻣하고 일관성 없는 비디오와... [Read More]

(MobileNeRF) Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures

AI Paper Review

신경 방사형 필드 (NeRFs)는 새로운 시점에서 3D 장면의 이미지를 합성하는 놀라운 능력을 보여주었습니다. 그러나 이들은 “ray marching” 기반으로 한 특수 볼륨 렌더링 알고리즘에 의존하며, 이는 일반적으로 사용되는 그래픽 하드웨어의 기능과 일치하지 않습니다. 본 논문은 텍스처 폴리곤을 기반으로 한 새로운 NeRF 표현을 소개합니다. 이 표현은 표면 이외의 지표면 정보를 효과적으로 시각화할... [Read More]

(WhisperX) Time-Accurate Speech Transcription of Long-Form Audio

AI Paper Review

대규모로 약하게 지도 학습된 음성 인식 모델인 Whisper는 다양한 도메인과 언어에서 인상적인 결과를 보였습니다. 그러나 발화당 대응하는 예측 타임스탬프는 정확성에 취약하며 단어 수준의 타임스탬프는 기본적으로 제공되지 않습니다. 게다가 버퍼링된 transcription을 통한 장기 오디오의 적용은 순차적인 특성 때문에 일괄 추론을 제한합니다. 앞서 언급한 문제를 극복하기 위해 우리는 WhisperX를 제안합니다. 이는 음성... [Read More]

(Whisper) Robust Speech Recognition via Large-Scale Weak Supervision

AI Paper Review

저자는 인터넷에 있는 수많은 오디오 transcripts를 예측하게끔 단순히 학습한 음성 처리 시스템의 capability를 연구했습니다. 68만 시간에 달하는 다국어 및 다작업 감독을 통해 확장된 결과 모델은 표준 벤치마크에 잘 일반화되며 종종 이전의 완전히 supvervised 한 결과와 경쟁력을 가지지만 어떠한 미세 조정도 필요하지 않은 제로샷 전이 환경에서 작동합니다. 인간과 비교했을 때, 이... [Read More]

(Instant-NGP) Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

AI Paper Review

신경 그래픽 기본 요소는 완전히 연결된 신경망에 의해 매개변수화되며 이를 훈련하고 평가하는 데에는 비용이 많이 들 수 있습니다. 저자는 이 비용을 줄이기 위해 다양한 새로운 입력 인코딩을 사용합니다. 이 인코딩은 작은 네트워크를 사용하면서도 품질을 희생하지 않도록 허용하므로, 부동 소수점 연산과 메모리 액세스 작업의 수를 크게 줄일 수 있습니다. 작은 신경망은... [Read More]