[Paper Review] Robust Sound-Guided Image Manipulation
·
Paper Review
더보기arXiv: https://arxiv.org/abs/2208.14114Demo: https://kuai-lab.github.io/robust-demo/ Abstract기존의 StyleCLIP을 활용한 텍스트 입력 기반의 이미지 조작은 풍부한 의미론적 단서를 제공하는 데에 한계를 가지고 있다는 것을 관찰했다. 이 문제를 해결하기 위해 더 동적이고 풍부한 의미론적 단서를 제공할 수 있는 사운드라는 추가적인 모달리티인 소리를 활용하는 것을 제안하였다. 본 논문에서는 먼저 이미지-텍스트 공동 임베딩 공간을 사운드까지 확장하고, 사운드 입력(e.g. 빗소리)에 따라 주어진 이미지를 조작하기 위해 직접적인 잠재 최적화 방법을 적용하는 새로운 접근 방식을 제안하였다. 사운드 기반이 이미지 조작 접근 방식이 기존..
[Paper Review] Going Deeper with Convolution - GoogLeNet
·
Paper Review
더보기Paper Link: https://arxiv.org/abs/1409.4842 1. IntroductionCNN 급격한 발전 → 네트워크 구조의 중요성모바일 및 임베디드 컴퓨팅의 지속적인 성장 → 전력 및 메모리 사용의 효율성이 중요해짐인셉션 모듈 적용2. Related WorksLeNet-5를 시작으로 CNN은 일반적으로 여러 개의 컨볼루션 레이어 이후에 FC 레이어로 이어지는 표준 구조를 가지게 됨이러한 구조를 사용한 모델들이 이미지 분류 분야에서 좋은 성과를 내었음Network-in-Network proposed by Lin et al - 1×1 convolutional layerscomputational bottleneck을 제거하기 위한 차원 축소 모듈성능 저하 없이 깊이를 늘릴 수 있을 ..
[Paper Review] Deep Residual Learning for Image Recognition - ResNet
·
Paper Review
더보기Paper Link: https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf1. IntroductionQuestion네트워크의 층을 깊게 쌓는 것이 매우 중요하다는 것이 당시의 연구를 통해 밝혀짐그러나 네트워크의 깊이가 깊어질 수록 정확도는 포화되고 점점 떨어지는 degradation problem이 발생함. 그리고 이는 오버피팅에 의한 것이 아님저자들은 이러한 문제점을 deep residual learning framework를 적용함으로써 해결 Residual LearningShortcut 연결은 한 개 이상의 레이어를 건너뛰는 연결을 의미함이는 단순히..
[Paper Review] Very Deep Convolutional Networks for Large-Scale Image Recognition - VGGNet
·
Paper Review
더보기Paper Link: https://arxiv.org/abs/1409.1556 1. IntroductionImageNet과 같은 대규모 공개 데이터셋의 등장당시 대규모 이미지 및 비디오 인식에서 큰 성공을 거두고 있던 컨볼루션 신경망(ConvNets)GPU와 같은 고성능 컴퓨팅 시스템의 발전ConvNet 아키텍처 설계의 또 다른 중요한 측면인 '깊이'를 제안모든 레이어에서 매우 작은 (3×3) 컨볼루션 필터를 사용하여 레이어를 더 깊게 쌓음으로써 네트워크의 깊이를 점진적으로 증가시킴2. Related WorksAlexNetILSVRC 2012 winnerDeeper architectureReLU, DropoutData augmentationMultiple GPUsLocal Response Norma..