Abstract
기존의 StyleCLIP을 활용한 텍스트 입력 기반의 이미지 조작은 풍부한 의미론적 단서를 제공하는 데에 한계를 가지고 있다는 것을 관찰했다. 이 문제를 해결하기 위해 더 동적이고 풍부한 의미론적 단서를 제공할 수 있는 사운드라는 추가적인 모달리티인 소리를 활용하는 것을 제안하였다. 본 논문에서는 먼저 이미지-텍스트 공동 임베딩 공간을 사운드까지 확장하고, 사운드 입력(e.g. 빗소리)에 따라 주어진 이미지를 조작하기 위해 직접적인 잠재 최적화 방법을 적용하는 새로운 접근 방식을 제안하였다. 사운드 기반이 이미지 조작 접근 방식이 기존의 텍스트 및 사운드 기반 이미지 조작 방법보다 의미적으로나 시각적으로나 더 그럴듯한 조작 결과를 생성한다는 것을 실험적으로 증명하였다. 또한 추가적인 다운스트림 평가를 통해 학습된 이미지-텍스트-사운드 공동 임베딩 공간이 사운드 입력을 효과적으로 인코딩함을 보여주었다.
1. Introduction
최근 연구들은 스케치, 텍스트, 사운드와 같은 멀티모달 정보를 활용해 이미지를 조작하는 방법들을 제시해 왔다. 그러나 텍스트와 같은 이산적(discrete) 입력은 사용자 의도를 충분히 표현하지 못하는 경우가 많다. 이에 반해 사운드는 시간에 따라 연속적(continuity)이고 역동적(dynamic)인 특성을 가지며, 이미지 조작을 더욱 다양하고 생동감 있게 만들어 줄 수 있다.
바로 이전의 연구(Lee et, al., 2022)에서 사운드를 시각 콘텐츠로 변환하기 위해 CLIP 임베딩 공간에 사운드 임베딩 공간을 매치시킴으로써 멀티모달 임베딩 공간을 확장하는 시도가 있었다. 그러나 이는 하나의 비디오 샘플이 그에 대응되는 오디오와만 강하게 결합되어 편향된 오디오-비주얼 쌍을 학습해 의도하지 않은 정보까지 이미지에 반영하게 되는 문제가 있었다(Figure 2 & 3).
이를 해결하기 위해, 저자들은 약한 페어링을 통한 대조 학습(audio-visual weakly paired contrastive learning)을 제안하여 오디오-비주얼 간의 편향을 줄이고 사운드 표현의 정확성을 높였다. 이 방법은 동일한 클래스의 다른 비디오 클립으로부터도 약한 오디오-비주얼 쌍을 활용하여 더욱 세밀한 이미지 조작이 가능하도록 하였다.
이에 대한 대략적인 과정은 다음과 같다
- 사전 훈련 단계에서 텍스트 쿼리를 사용하여 추가적인 시각 데이터를 샘플링
- KL Divergence를 활용하여 오디오-시각 유사도 점수가 시각-텍스트 유사도 점수를 모방하도록 함
- 오디오 인코더는 사전 훈련된 CLIP을 활용하여 텍스트 및 시각적 의미와 일치하는 잠재 표현을 생성하도록 학습
- StyleGAN의 source latent vector를 사용하여 CLIP 공간에서 입력 오디오와 생성된 이미지 사이의 거리를 최소화하는 반복 과정을 통해 오디오의 의미와 일치하는 이미지를 생성
결과적으로 해당 접근 방식은 더욱 견고한 이미지 조작 성능을 보여주었으며 기존의 텍스트 기반 방법들보다 다양하고 세밀한 이미지 조작이 가능함을 실험적으로 증명하였다.
2. Related Works
Text-Guided Image Manipulation
여러 연구에서 텍스트 입력을 통해 시각적 특징을 보존하면서도 이미지를 조작하기 위해 GAN 기반의 인코더-디코더 아키텍처를 활용해 왔다. 대표적인 예로 StyleCLIP과 TediGAN
- StyleCLIP: StyleGAN의 잠재 공간과 CLIP 기반의 텍스트-이미지 공동 임베딩 공간을 활용해 시각적으로 더 그럴듯한 이미지를 생성하는 방식을 사용
- TediGAN: GAN 인버전 기법을 사용해 멀티 모달 맵핑을 수행
위의 방식들은 텍스트와 StyleGAN 기반 생성기에서 생성된 이미지 간의 CLIP 거리를 최소화하여 조작된 이미지를 생성하였다. 이 논문에서도 마찬가지로 CLIP 임베딩 공간에서의 거리를 최적화하는 전략을 따르지만, 이를 이미지-텍스트-사운드 공동 임베딩 공간으로 이를 확장하여 이미지 조작 작업에서의 표현력을 향상시켰다.
Sound-Guided Image Manipulation
사운드 입력을 이용한 이미지 조작에 대한 연구는 많지 않지만 대부분의 연구는 음악에 초점을 맞추었으며, 사운드의 의미론적 측면에 대해서는 깊이 다루지 않았다. 이 논문의 바로 이전의 연구(Lee et al., 2022)에서 대조 학습 기법을 통해 CLIP 기반의 이미지-텍스트-사운드 공동 임베딩 공간을 학습할 수 있음을 처음으로 입증했다. 그러나 앞서도 간단히 언급했듯이 해당 모델은 이미지의 의도치 않은 부분이 사운드에 의해 조작되는 경향이 있었고, 본 논문에서 중점적으로 다루고자 하는 부분이라고 할 수 있다.
Interpreting Latent Space in StyleGAN
사전 학습된 StyleGAN의 잠재 공간은 disentanglement 문제(n차원의 잠재 공간에서 각 축들이 서로 얽혀 있어서 하나의 특징에 매핑하고자 하여도 다른 특징 까지 변화하는 문제)를 해결하고 잠재 공간의 변화를 통해 생성된 이미지를 의미 있게 조작할 수 있게 하였다.
Audio-reactive StyleGAN은 오디오 신호의 크기를 계산하여 StyleGAN의 잠재 공간에서 매 시간 단계마다 이미지를 생성하는 방식으로 오디오 시퀀스에서의 잠재 공간 분석을 수행하였으나 이 방법은 잠재 공간에서 사운드의 의미를 제어할 수 없고, 오직 사운드의 크기만이 잠재 벡터의 움직임을 결정하였다.
Audio-Visual Representation Learning
오디오-비주얼 표현 학습에서 대부분의 연구들은 서로 다른 모달리티를 동일한 임베딩 공간으로 매핑하는 방식으로 이루어졌다. 이는 오디오-비주얼 대조 학습(contrastive learning)을 통해 오디오-비주얼 긍정 쌍이 다른 부정 쌍들보다 더 유사한 표현을 가지도록 한다.
그러나 이미지 조작에 있어서 오디오-비주얼 표현 학습은 4억 개의 이미지-텍스트 쌍을 사용하여 자가 지도 학습된 CLIP의 긍정 쌍만큼 충분히 학습되지 못했다는 점에서 아직 발전의 여지가 있다. 이를 위해 최근 연구들은 사운드 임베딩 공간을 CLIP 임베딩 공간과 맞추는 방법을 제안했다(Wav2CLIP, AudioCLIP). 특히 직전 연구(Lee et al., 2022)에서는 오디오-텍스트 데이터셋과 비디오에서 추출한 오디오-비주얼 스트림을 이용해 CLIP 기반 사운드 잠재 표현을 얻기 위해 오디오 인코더를 처음부터 훈련시켰다.
3. Method
논문에서 제안한 모델은 크게 CLIP 기반 멀티 모달 잠재 표현 학습(3.1)과 사운드 기반 이미지 조작(3.2)의 두 가지 단계로 구성된다. 우선 3.1에서는 사전 학습된 CLIP 모델을 활용하여 기존 텍스트-비주얼 임베딩 공간을 사운드 까지 확장하도록 오디오 인코더를 학습시키고 앞서 언급한 약한 쌍 대조 학습을 적용하였다. 이어서 3.2에서는 학습된 멀티모달 임베딩 공간을 바탕으로 오디오 입력에 따라 이미지 조작이 가능하게 하는 direct latent code optimization을 적용하였다.
3.1. Multi-Modal Latent Representation Learning
Extending CLIP Embedding Space with Sound
가장 먼저 사전 학습된 CLIP 임베딩 공간을 사운드 모달리티까지 확장하는 작업이 필요하다. 이를 위해 오디오, 텍스트, 이미지 각각의 인코더가 학습이 되는데, 결론부터 말하자면 이는 각각의 오디오-텍스트 유사도 행렬, 오디오-이미지 유사도 행렬의 대각 원소가 최대가 되게 하는 방향으로 진행 된다. 자세한 설명에 앞서 주요 용어는 다음과 같다.
- \( x_{a}, x_{t}, x_{v} \): 동일한 비디오로부터 추출된 오디오, 텍스트, 이미지 데이터
- \( \mathbf {a}, \mathbf {t}, \mathbf {v} \): 앞선 데이터가 인코더를 거쳐 나온 d차원의 정규화된 벡터 (크기가 1)
이 잠재 벡터들에 대해 전형적인 대조 학습 기법을 적용하여 임베딩 공간에서 긍정 쌍은 가깝게, 부정 쌍은 멀게 배치된다. 구체적으로는 크기가 N인 오디오-텍스트 쌍 \( {\mathbf {a_{i}}, \mathbf {t_{j}}} \) (i, j는 1~N)이 있을 때, 이들로부터 (1)과 같은 유사도 행렬을 구성한다. Figure 5를 보면 더 쉽게 이해할 수 있다.
이어서 (2)와 같은 InfoNCE loss를 구성하는데, 이 loss는 앞선 N x N의 유사도 행렬의 대각 성분(긍정 쌍)을 최대화함으로써 작아지도록 설계되었다.
또한 이들을 대칭 행렬로 만들어주기 위해 \( M^{t\rightarrow a} \)의 전치 행렬인 \( M^{a\rightarrow t} \)을 동일하게 더해주어 최종적으로 (5)와 같은 loss를 구성한다.
위와 같은 방식을 오디오-이미지에도 동일하게 적용하여 (6)을 구성하였다.
추가적으로 논문에서는 오디오-텍스트 데이터셋이 부족한 문제를 극복하고자 가령 "rowboat, conoe, kayak rowing"과 같은 텍스트 데이터를 "row canoe, kayak quarrel rowboat."와 같이 (i) 동의어로 대체, (ii) random permutation, (iii) random words 삽입 하는 방식으로 데이터 증강을 적용하였다.
Self-Supervised Learning towards Intensity-Aware Sound Representation
텍스트와 달리 오디오 데이터의 장점은 다양한 방식으로 표현될 수 있다는 것인데, 가령 'thunderstorm'의 경우 비가 거세게 올 수도 있고, 우박이 떨어질 수도 있고, 바람이 불 수도 있다. 이러한 오디오 데이터의 미묘한 차이를 반영하여 강도를 인식한(intensity-aware) 사운드 표현을 얻고자하는 자가지도 학습 방법을 적용하였다. 중요한 점은 Figure 6에서 볼 수 있듯이 와 같이 동일한 클래스이더라도 표현 방식이 다르면(논문에서는 이를 view, scene이라 표현) 부정 쌍으로서 더 멀게 배치된다는 점이다.
구체적인 방식은 앞서 오디오-텍스트, 오디오-이미지 대조 학습과 거의 동일하다. 우선 오디오 데이터 \( x_{a} \)를 증강한 \( {\hat{x}}_{a} \)로 부터 잠재 d차원의 잠재 백터 \( \mathbf{\hat{a}} \)를 얻는다. 이어서는 (7), (8)과 같이 \( a \)와 \( \hat a \)에 대한 유사도 행렬을 구성하고 InfoNCE를 최소화하는 방향으로 학습이 진행 된다.
오디오 데이터 증강에 대해서는 SpecAugment(Park et al., 2019a)를 적용했는데 이는 Mel-spectrogram을 시각적으로 증강하는 방식이라고 한다.
Weakly Paired Contrastive Learning for Audio-Visual Joint Embedding Space
기존의 대조 학습은 오직 동일한 비디오로부터 추출된 오디오와 이미지를 긍정 쌍으로 간주하여, 혹여나 다른 비디오로부터 추출된 이미지들이 비슷한 시각적 특징을 가지고 있더라도 이는 부정 쌍으로 간주되어 멀리 배치되었다. 이를 해결하고자 동일한 텍스트 레이블을 가진 다른 이미지와도 약하게 페어링될 수 있는 대조 학습 기법을 제안하였다.
이를 위해 먼저 오디오 데이터 \( x_a \)로부터 동일한 텍스트 레이블을 가진 새로운 이미지 \( {\tilde{x}}_v \)를 샘플링하고 동일하게 이미지 인코더를 통해 임베딩을 얻는다(Figure 4 (a), Figure 5 참고). 이어서 Figure 7과 같이 미니배치 내에서 (샘플링)이미지-텍스트 유사도 행렬과 오디오-(샘플링)이미지 유사도 행렬 간의 KD를 최소화하는 방식으로 기존 CLIP의 지식을 오디오 표현으로 이전한다.
정리하자면 식 (12)로 정리되는 미니배치 내에서의 KL 다이버전스를 최소화하는 것이 목적인데, 이 KL 다이버전스는 식 (11)처럼 오디오-(샘플링)이미지 유사도 행렬의 대각 성분과 텍스트-(샘플링)이미지 유사도 행렬의 대각 성분으로 구성된다. 결과적으로 오디오 인코더가 이와 같은 과정을 통해 동일한 레이블의 다른 이미지와도 약하게 연결되어 오디오-이미지 간의 편향을 줄이게 되는 것으로 해석할 수 있다.
모든 과정을 종합한 최종적인 loss는 식 (13)과 같이 나타낼 수 있으며 Figure 4의 (a)와 Figure 5를 참고하면 더 쉽게 이해할 수 있다.
3.2. Sound-Guided Image Manipulation
앞서 식 (13)으로 표현되는 loss를 최소화함으로써 멀티모달 임베딩 공간을 학습한 후, 잠재 코드를 직접적으로 최적화하는 방법을 통해 주어진 이미지를 조작한다. 이는 사전 학습된 임베딩 공간 내에서 소스 잠재 코드와 오디오 기반의 잠재 코드 간의 거리를 최소화하는 방식으로 이루어지며 추가적으로 잠재 코드를 적응적으로 조작하는 Adaptive Layer Masking 기법을 제안하였다.
해당 과정은 식 (14)로 표현되는 최적화를 통해 이루어진다. 이에 대한 주요 용어는 다음과 같다.
- \( w_s \in W^{L \times D} \): 소스 잠재 코드
- \( w_a \in W^{L \times D} \): 오디오 기반의 잠재 코드
- \( L \): 스타일 레이어 개수
- \( L_{cos} \): hinge loss
- \( L_{reg} \): regularization loss
- \( L_{ID} \): identity loss
- \( G \): StyleGAN 기반 생성기
- \( \lambda_{reg}, \lambda_{ID} \): regularization loss와 identity loss를 제어하는 하이퍼 파라미터
Direct Latent Code Optimization
잠재 코드를 직접적으로 최적화하는 방법은 식 (14)의 첫 번째 항인 식 (15)로 표현되는 loss를 최소화함으로써 이루어진다. 먼저 hinge loss의 형태이고 코사인 거리가 2개 있는 것을 확인할 수 있다. 편한 설명을 위해 이를 max(A - B + 1, 0)과 같이 첫 번째 코사인 거리를 A, 두 번째 코사인 거리를 B라고 하면 다음과 같이 해석할 수 있을 것 같다. (\( f_a\), \( f_v \)는 각각 오디오, 이미지 인코더를 의미)
- A: 원본 이미지와 오디오 간의 유사성
- B: 조작된 이미지와 오디오 간의 유사성
쉬운 이해를 위해 이를 '이미지'와 '오디오'라고 표현했지만 인코더를 거쳤기 때문에 실제로는 임베딩 공간 내에 있는 잠재 벡터들이다. A는 최적화 과정에서 고정되어 있는 상수 값이고, 최적화 대상인 \( w_a \)가 포함되어 있는 B의 값이 변하며 최적화가 이루어진다고 볼 수 있다. hinge loss의 특성을 고려했을 때 위 식의 목표는 원본 이미지와 오디오가 유사한 정도보다 조작된 이미지와 오디오가 마진(위 식에서는 1)만큼 덜 유사하게 만드는 것이라고 해석할 수 있다. 만약 조작된 이미지와 오디오간의 유사성이 커지면 코사인 거리는 작아져 A - B의 값이 양수가 되어 loss에 반영된다. 즉 B - A >= 1이 유지되도록 원본 이미지와 오디오 간의 관계를 고려하여 조작된 이미지와 오디오 간의 비유사성을 최소화하려는 것임을 알 수 있다.
오디오 기반의 잠재 코드 \( w_a \)를 초기에 어떻게 구성하는지에 대한 설명이 제시되어 있지 않아서 추가적으로 코드를 찾아봤다. 해당 논문의 코드는 아직 공개된 것 같지 않아서 직전 논문(Sound-Guided Semantic Image Manipulation)에 대한 코드를 살펴봤는데 그냥 초기에 소스 잠재 코드 \( w_s \)를 복사해서 사용하는 것 같다. GitHub Link
Adaptive Layer Masking
앞서 식 (14)에서 \( L_{reg} \)에 해당하는 부분이다. 일반적으로 L2 정규화는 이동된 잠재 코드로부터 생성된 이미지가 원본과 상이한 것을 효과적으로 조절해준다(이미지 조작에서 있어서의 L2 정규화 효과를 얘기하는 것 같음). 이는 식 (16)으로 표현되지만, StyleGAN2의 잠재 코드가 각 레이어마다 서로 다른 속성을 가진다는 특성을 반영하여 이를 식 (17)과 같이 변형해서 사용하였다.
L은 앞서도 설명했듯이 스타일 레이어의 개수이고 새로운 점은 파라미터 g이다. g는 스타일 레이어와 같은 L차원의 벡터인데, 원본 이미지를 고려한 특정 스타일 레이어의 규제 정도를 의미하며 최적화 과정에서 반복적으로 업데이트된다. 그리고 해당 벡터가 오디오 기반의 잠재 코드에 곱해지며 Adaptive Layer Masking이 이루어진다. 쉽게 말해서 원본 이미지의 스타일을 고려하여 업데이트된 g가 어떤 스타일을 살리고 줄일지 결정한다고 이해하면 될 것 같다.
사전 학습된 g를 사용하는 것이 아니라 이미지 조작 과정에서 동시에 g가 업데이트된다는 것이 잘 와닿지가 않아서 마찬가지로 코드를 살펴봤다. layer_masking_weight가 g를 의미하는 것 같고 마지막 줄에 g(1 - g) 형태로 업데이트되는 것으로 보아 레이어 별 loss를 구하고 직접적으로 경사하강법을 통한 업데이트를 적용하는 것 같다. 다만 시그모이드를 왜 g에만 취했는지는 잘 이해가 되지 않는다. GitHub Link
Identity Loss
식 (14)의 최적과 과정에서 마지막에 해당하는 \( L_{ID}(w_a) \) 부분이다. 여기서 R은 ArcFace(Deng et al., 2019)라고 하는 사전 학습된 얼굴 인식 모델이라고 한다. < , >로 표현된 부분은 두 벡터 간의 코사인 유사도를 의미한다. 종합적으로, identity loss는 ArcFace 모델의 잠재 공간에서 원본 이미지와 조작된 이미지와의 유사도가 최대가 되게 한다. 이는 조작된 이미지가 원본 이미지의 아이덴티티(얼굴 특징)를 최대한 잘 유지하도록 하기 위함인 것을 알 수 있다. 추가적으로 \( \lambda_{ID} \)의 값은 사람이 아닌 이미지에 대해서는 0의 값으로 설정한다.
4. Experiments
해당 절에서는 사용한 모델과 데이터셋, 구체적인 학습 방법과 더불어 질적 분석, 양적 분석을 다루고 있다. 내용이 워낙 많기 때문에 분석에 대한 부분만 정리하도록 하겠다.
4.1. Qualitative Analysis
Comparison Against Text-Guided Manipulation
논문에서 제시한 오디오 기반의 이미지 조작 결과를 기존의 텍스트 기반의 이미지 조작 방식과 비교하는 내용을 담고 있다. Figure 9에서 볼 수 있듯이 오디오 기반의 방식((c)와 (d))이 텍스트 기반의 방식((b), (c))보다 더 나은 품질을 생성한다. 또한 'Baby crying'이라는 속성에 대해 (b) TediGAN은 'crying'을 강조하고 (c) StyleCLIP은 'baby'를 강조하는 반면 제안한 방식은 두 특징을 동시에 표현하는 것을 확인할 수 있다.
직전 연구 (d)와 비교해보면, (d)는 피부 톤과 같은 색상 부분에 있어서 종종 변화를 초래했지만 제안된 방식은 더 안정적이고 시각적으로 그럴 듯한 결과를 생성한 것을 확인할 수 있다.
Audio Intensity-Aware Image Manipulation
앞서 intensity-aware 방식으로 오디오 모달리티를 학습한 것에 대한 분석을 다룬 부분이다. 상기해보자면 동일한 클래스이더라도 표현 방식이 다르면 부정 쌍으로 멀게 배치되게 학습함으로써 오디오만이 가지고 있는 데이터의 미묘한 차이를 반영하였다(Figure 6 참고).
Figure 8을 보면 오디오 기반의 방식이 t-SNE에서 훨씬 다양한 분포를 가지는 것을 확인할 수 있으며 오디오 강도에 따른 조작 결과도 더 잘 반영하는 것을 확인할 수 있다.
Comparison with Existing State-of-the-Art Sound-Based Style Transfer Models
기존의 오디오 기반 스타일 트랜스퍼 모델들과의 비교를 다룬 부분이다. Figure 10을 보면 불이 타닥거리는 소리와 비가 오는 소리를 입력했을 때 기존의 모델인 TraumerAI와 Crossing you in Style은 아예 의미론적 단서를 찾지 못한 반면 제안된 방식은 성공적인 조작 결과를 얻은 것을 확인할 수 있다.
Comparison with Existing Multi-modal Embedders
제안된 방식과 유사하게, CLIP 기반의 임베딩 공간을 사운드로까지 확장한 기존의 다른 모델들과의 비교를 다룬 부분이다. Figure 11에서와 같이 다양한 사운드 입력에 대해 제안된 방식의 멀티모달 임베딩 공간이 기존 모델들보다 시각적으로 더 좋은 결과를 생성한 것을 확인할 수 있다.
Effect of Audio-Visual Weakly Paired Contrastive Learning
앞서 weakly paired 방식으로 오디오-이미지 쌍을 학습한 것에 대한 분석을 다룬 부분이다. 상기해보자면 KL 다이버전스 loss를 적용하여 동일한 텍스트 레이블을 가진 다른 이미지와도 약하게 페어링됨으로써 오디오-이미지 간의 바이어스를 줄였다(Figure 7 참고).
Figure 12를 보면 이러한 KD loss를 적용하지 않았을 때와 적용했을 때를 비교하고 있는데, 확실히 적용했을 때 헤어 스타일의 변화라든지 안경, 수염의 변화와 같은 오디오와 무관한 바이어스가 잘 나타나지 않는 것을 확인할 수 있다. 다만 적용하지 않았을 때보다는 유의미한 변화이기는 하지만 그럼에도 여전히 작은 바이어스는 나타나는 것 같다. (Baby laughing으로 피부색이 하얗게 변한 건 아마도 사전 학습된 기존 CLIP이 가지고 있는 social biases 때문인 듯 하다. Discussion에서 이러한 부분을 짧게나마 다루고 있다)
Effect of Adaptive Layer Masking
KD loss와 비슷한 방식으로 Adaptive Layer Masking을 적용하지 않았을 때와 적용했을 때를 비교함으로써 그 효과에 대한 분석을 다룬 부분이다. Figure 13을 보면 'Thunderstorm'이라는 오디오 입력의 경우 번개 소리와 빗소리가 합쳐진 것이다. 적용하지 않았을 때는 번개가 잘 확인되지 않지만 적용했을 때는 잘 나타나는 것을 확인할 수 있다. Adaptive Layer Masking은 위와 같이 혼합된 오디오 입력에 대해 각 스타일의 특성을 모두 잘 살리는 데에 효과적인 것 같다는 생각이 든다.
4.2. Quantitative Analysis
Zero-Shot Transfer
ESC-50, Urban sound 8k 데이터셋을 활용하여 분류 성능과 제로샷 전이 성능을 기존의 모델들과 비교한 내용을 다룬 부분이다. 우선 Table 1의 첫 번째 부분을 보면, 인코더를 거친 오디오 임베딩을 로지스틱 회귀와 같은 지도 학습 방법으로 학습시키고 이를 ResNet50 모델과 top-1 분류 성능을 비교하였다. 논문에 자세히 설명되어 있지 않지만 'supervised setting'이 체크되어 있지 않은 이유는 인코더 자체가 이미 비지도(CLIP 기반) 학습 방법으로 학습이 완료되었기 때문이고, 'Zero-shot'이 체크되어 있지 않은 이유는 추가적인 로지스틱 회귀 모델을 지도 학습 방법으로 학습시켰기 때문인 것 같다(확실하진 않음). 아무튼 결과적으로 제안된 방식이 높은 분류 성능을 보이는 것을 확인할 수 있다.
두 번째 부분은 제로샷 분류 성능 비교인데, 논문에서는 AudioCLIP이 높은 성능을 보이는 이유가 2M에 달하는 대규모 오디오 데이터셋인 AudioSet으로 인코더를 사전 학습시켰기 때문이라고 설명하고 있다. 이를 통해 알 수 있는 것은 모델의 사운드 표현력은 얼마나 많은 양의 오디오-이미지 긍정 쌍이 약하게 페어링되어 있는가에 달려있고, 이러한 점에서 제안된 방식의 임베딩 공간이 이미지 조작에 있어서 더 적절하다는 것을 강조하고 있다.
Distribution of Manipulation Direction
잠재 코드 \( w_s, w_a, w_t \) 간의 코사인 유사도에 대한 평균과 분산 값을 계산함으로써 조작된 잠재 코드에 대한 분포 정도를 분석하였다. Table 2의 첫 행과 두 번째 행을 비교해보면 첫 번째 행에서 모든 속성에 대해 코사인 유사도에 대한 분산이 큰 것을 확인할 수 있다. 이는 오디오에 의한 잠재 코드 \( w_a \)가 텍스트에 의한 잠재 코드 \( w_t \)보다 더 멀리 움직이는 것을 의미하며 이를 통해 더 풍부하고 극적인 이미지를 생성해낼 수 있는 것으로 해석할 수 있다.
Human Evaluations
Amazon Mechanical Turk (AMT)로부터 50명의 참가자를 모집하여 12개의 서로 다른 사운드로부터 조작된 이미지들에 대한 평가를 진행하였다. 두 가지 질문을 받았는데 이는 Figure 17 (b), (c)와 같고 결론적으로 제안된 방식이 타겟 사운드를 가장 잘 표현하고 가장 현실적이라는 평가를 받았다고 한다.
Sound and Text-Guided Style Mixing
저자들은 Figure 16과 같이 사운드 기반의 방식은 얼굴에 나타나는 감정을 효과적으로 조작하고 텍스트 기반의 방식은 타겟 이미지의 색상을 조절하는 데에 효과적인 것을 발견했다. 이를 바탕으로 18 x 512차원의 잠재 코드에서 1~9 스타일 레이어는 \( w_s \)로부터, 10~18 스타일 레이어는 \( w_t \)로부터 선택한 후 혼합하는 방식으로 사운드의 동적인 특성과 텍스트의 인간적 특성을 동시에 사용하였다.
5. Discussion
본 논문에서는 다양한 도메인에 대해 사운드 입력에 기반한 이미지 조작을 수행하는 방법을 제시하였다. 그러나 해당 방법은 사전 학습된 StyleGAN 잠재 공간과 CLIP 임베딩 공간을 필요로 하며, 이는 실제 응용에서 학습 비용을 증가시키고 시각적 콘텐츠의 도메인을 제한한다. 개방형 도메인에서 이미지를 조작하기 위해서는, CLIP 기반의 사운드 임베딩 공간으로 StyleGAN의 잠재 공간에 대한 가이드를 제공하는 것이 아니라, 사운드의 잠재 표현으로부터 직접적으로 이미지를 생성할 수 있어야 한다. 그리고 이는 향후 연구로 다룰 예정이라고 한다.
또한 본 논문에서는 CLIP의 지식을 활용하는데 이는 사회적 편견을 반영할 수 있다고 한다. CLIP 논문에서 저자들은 CLIP이 인터넷으로부터 얻은 이미지-텍스트 쌍으로 학습되고 이 과정에서 필터링이나 선별 과정을 거치지 않기 때문에 많은 사회적 편견을 배운다고 말했다. 이에 따라 총성이나 싸우는 소리 등으로 조작될 때 도둑이나 범죄자 등의 얼굴로 나타날 수 있고, 인간의 얼굴이 진공 청소기 소리나 여성의 목소리와 같은 소리로 조작될 때 가사도우미와 같은 결과가 생성되는 등의 특정 사회적 편견을 동반할 가능성이 있다고 말한다.