[Paper Review] Robust Sound-Guided Image Manipulation
·
Paper Review
더보기arXiv: https://arxiv.org/abs/2208.14114Demo: https://kuai-lab.github.io/robust-demo/ Abstract기존의 StyleCLIP을 활용한 텍스트 입력 기반의 이미지 조작은 풍부한 의미론적 단서를 제공하는 데에 한계를 가지고 있다는 것을 관찰했다. 이 문제를 해결하기 위해 더 동적이고 풍부한 의미론적 단서를 제공할 수 있는 사운드라는 추가적인 모달리티인 소리를 활용하는 것을 제안하였다. 본 논문에서는 먼저 이미지-텍스트 공동 임베딩 공간을 사운드까지 확장하고, 사운드 입력(e.g. 빗소리)에 따라 주어진 이미지를 조작하기 위해 직접적인 잠재 최적화 방법을 적용하는 새로운 접근 방식을 제안하였다. 사운드 기반이 이미지 조작 접근 방식이 기존..