A Survey on Visual Transformer

AI Survey

Transformer는 self-attention 매커니즘에 기반하여 natural language processing에 먼저 사용되기 시작하였다. 큰 가능성을 보고 연구원들은 computer vision task에 이를 적용할 방법을 모색하였다. transformer-based 모델은 다양한 visual 벤치마크에서 convolutional, recurrent network보다 비슷하거나 더 나은 성능을 보였다. 높은 성능과 인간의 유도된 편향이 필요하지 않아 computer vision에서 transformer는 점점 더 많은 관심을 받기 시작했다.... [Read More]

Recurrent Feature Reasoning for Image Inpainting

AI Paper Review

현존하는 inpainting method는 규칙적이거나 작은 결점에는 좋은 성능을 내고 있습니다. 하지만 큰 연속적인 구멍을 채우는 일은 가운데 부분에 대한 규약이 부족하기 때문에 매우 어렵습니다. 이 논문에서 Recurrent Feature Reasoning module과 Konwldege Consistent Attention(KCA) module로 구성된 Recurrent Feature Reasoning(RFR) network를 제안한다. 사람이 퍼즐을 푸는 것과 비슷하게 (쉬운 곳부터 풀고 나서 추가적인... [Read More]

(PiiGAN) Generative Adversarial Networks for Pluralistic Image Inpainting

AI Paper Review

image의 missing area를 채우는 inpainting task는 최근 딥러닝으로 놀라운 결과를 이끌고 있다. 하지만 이런 방법들은 다른 그럴듯한 결과를 무시하 하나의 optimal result를 생성하려고 시도한다. 저자는 inpainting의 불확실성을 고려하여 gt로 부터 style feature(latent vector)를 추출할 수 있는 새로운 style extractor를 가지고 있는 생성 모델을 제안한다. 추출된 style feature과 gt 모두 generator의... [Read More]

(SINet) Extreme Lightweight Portrait Segmentation Networks with Spatial Squeeze Modules and Information Blocking Decoder

AI Paper Review

가볍고 강인한 portrait segmentation 알고리즘은 많은 얼굴 어플리케이션에서 중요한 task이다. 하지만 object segmentation의 subset 정도로 중요하게 다루어 지지 않았다. 명백하게, portrait segmentation은 독특한 요구 사항이 있다. 첫째로, portrait segmentation은 매우 가벼운 모델이여야 한다. 둘째로, 이 domain에 충분한 publie dataset이 없다. 첫번째 문제를 해결하기 위해, information blocking decoder과 spatial squeeze module을... [Read More]

(TTVOS) Lightweight Video Object Segmentation with Adaptive Template Attention Module and Temporal Consistency Loss

AI Paper Review

Semi-supervised video object segmentation은 많은 앱에서 사용되고 있다. 이 task는 class에 구애받지 않는 object를 주어진 segmentation mask로 tracking 하는 것이다. 이를 위해서 optical flow, online-learning, memory networks과 같은 다양한 접근 방식이 사용되어져 왔다. 하지만 위 방법은 높은 정확도를 보이지만 inference 시간이 길고, 복잡성이 크기 때문에 실제 앱 환경에는 제약이 있다.... [Read More]