(OpenPose) Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

AI Paper Review

실시간 다중 인물 2D 포즈 추정은 기계가 이미지와 비디오에서 사람들을 이해하는 데 있어 핵심 요소입니다. 이 연구에서는 이미지에서 여러 사람의 2D 포즈를 감지하는 실시간 접근법을 제시합니다. 제안된 방법은 비모수 표현, 즉 Part Affinity Fields (PAFs)를 사용하여 이미지의 개인과 신체 부위를 연관시키는 방법을 배웁니다. 이 하향식 시스템은 이미지의 사람 수에 관계없이... [Read More]

(ARShoe) Real-Time Augmented Reality Shoe Try-on System on Smartphones

AI Paper Review

가상 착용 기술은 증강 현실을 사용하여 사용자가 다양한 패션 아이템을 시도하고 편리한 온라인 쇼핑 경험을 제공할 수 있게 해줍니다. 그러나 대부분의 이전 연구는 옷을 위한 가상 착용에 중점을 두고 있어 신발에 대한 부분을 무시하고 있는데, 신발에 대한 가상 착용 또한 유망한 과제입니다. 따라서 본 연구는 스마트폰을 위한 실시간 증강 현실... [Read More]

(Re-ReND) Real-time Rendering of NeRFs across Devices

AI Paper Review

이 논문은 제한된 자원을 가진 기기에서 사전 훈련된 Neural Radiance Field (NeRF)을 실시간으로 렌더링하기 위한 새로운 접근 방식인 Re-ReND를 소개합니다. 이는 여러 기기에서 NeRF를 실시간으로 렌더링할 수 있게 하는 방법입니다. Re-ReND는 표준 그래픽 파이프라인에서 효율적으로 처리될 수 있는 NeRF 표현으로 변환함으로써 실시간 성능을 달성하도록 설계되었습니다. 제안된 방법은 NeRF를 메시로 추출하여... [Read More]

(QuickVC) Any-To-Many Voice Conversion Using Inverse Short-Time Fourier Transform for Faster Conversion

AI Paper Review

자동 음성 인식(ASR) 및 텍스트 음성 변환(TTS) 기술의 발전으로 원본 콘텐츠 정보와 대상 화자 정보를 추출하여 파형을 재구성함으로써 고품질 음성 변환(VC)이 가능해졌습니다. 그러나 현재의 방법들은 추론 속도 측면에서 여전히 개선이 필요합니다. 본 연구에서는 HuBERT-Soft 모델을 사용하여 화자 정보 없이 콘텐츠 정보 특성을 추출하는 가벼운 VITS 기반 VC 모델을 제안합니다. 합성... [Read More]

LOW-LATENCY REAL-TIME VOICE CONVERSION ON CPU

AI Paper Review

저자는 이전의 오디오 조작 및 생성 신경망 아키텍처를 실시간 음성 변환 작업에 적용하였습니다. 결과로 나온 LLVC (Low-latency Lowresource Voice Conversion) 모델은 16kHz의 비트레이트에서 20ms 미만의 지연 시간을 가지며 소비자용 CPU에서 거의 2.8배 빠르게 실행됩니다. LLVC는 생성적 적대 신경망 아키텍처와 Knowledge Distillation를 모두 사용하여 이러한 성능을 달성합니다. 저자의 주장을 따르면 LLVC가... [Read More]