(Video-LLaVA) Learning United Visual Representation by Alignment Before Projection

AI Paper Review

LVLM(Large Vision-Language Model)은 시각 언어 이해에서 다양한 다운스트림 작업의 성능을 향상시켰습니다. 대부분의 기존 접근 방식은 이미지와 비디오를 별도의 feature 공간으로 인코딩한 다음 대규모 언어 모델에 대한 입력으로 공급합니다. 그러나 이미지 및 비디오에 대한 통합 토큰화가 부족하기 때문에, 즉 프로젝션 전 정렬 불량으로 인해 대규모 언어 모델(LLM)이 여러 불량 프로젝션 레이어에서... [Read More]

A Survey on Large Language Models for Recommendation

AI Survey

대규모 언어 모델(LLM)은 자연어 처리(NLP) 분야에서 강력한 도구로 부상했으며 최근에는 추천 시스템(RS) 영역에서 큰 주목을 받고 있습니다. 자기 지도 학습을 사용하여 방대한 양의 데이터에 대해 훈련된 이러한 모델은 보편적 표현을 학습하는 데 놀라운 성공을 거두었으며 미세 조정 및 프롬프트 튜닝 등과 같은 몇 가지 효과적인 전송 기술을 통해 추천 시스템의... [Read More]

MUSIC AUGMENTATION AND DENOISING FOR PEAK-BASED AUDIO FINGERPRINTING

AI Paper Review

오디오 지문은 짧은 녹음 발췌부로부터 노래를 식별하는 데 있어서 잘 확립된 해결책입니다. 대중적인 방법들은 일반적으로 스펙트럼 피크와 같은 희소 표현의 추출에 의존하며, 이는 정확하고, 빠르며, 대규모 컬렉션에 확장 가능함을 입증하였습니다. 그러나, 오디오 식별의 실제 세계 응용은 종종 소음이 많은 환경에서 발생하며, 이는 이러한 시스템이 실패하게 할 수 있습니다. 이 연구에서,... [Read More]

(SpectroMap) Peak detection algorithm for audio fingerprinting

AI Paper Review

오디오 지문은 고유한 특성에 기반하여 오디오 녹음을 식별하고 매칭하는 기술입니다. 이는 오디오 신호의 압축된 표현을 생성하여 다른 오디오 녹음과 빠르게 비교하고 매칭하는 데 사용됩니다. 지문 생성 과정은 스펙트럼 내용, 템포, 리듬 등과 같은 특정 특징을 추출하기 위해 오디오 신호를 분석합니다. 이 논문에서는 Python 프로그래밍 언어로 작성된 오디오 지문을 위한 오픈... [Read More]