[Computer Vision] Metric Learning
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=cv_iOJ_OaUM&t=1723s Metric LearningTask객체(이미지, 비디오 등)들 간의 distance function을 학습하는 task두 개 혹은 그 이상의 샘플을 입력 받아 스코어를 출력스코어는 샘플들 간의 거리를 의미여기서 거리는 데이터에 따라 그 의미가 달라짐모델은 데이터로부터 관계를 학습 Data객체들 간의 유사성을 ..
[Computer Vision] Segmentation
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=oqBr_4du-94 Semantic Segmentation기존 분류 문제가 이미지 전체를 대상으로 했다면 semantic segmentation은 픽셀 단위로 분류 수행First Ideas for Semantic Segmentation단순히 픽셀 하나만 보고 이를 분류하는 것은 어려움그림과 같이 주변 픽셀들도 동시에 보고 타겟 픽셀에 대한 분..
[Computer Vision] Object Detection
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=W6EVlzVP0TM Object DetectionBasics기존 분류 문제는 단순히 이미지를 특정 클래스로 분류하는 것객체 검출은 이미지 내의 객체의 위치와 그 객체가 무엇인지를 추정해야 함Class (What)Bounding box (Where)ConfidenceDataset 데이터셋은 기본적으로 객체의 클래스를 포함하고 객체의 위치는 두 ..
[Computer Vision] Transformers II
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=LBqfClEnV2U&list=PL0E_1UqNACXDTwuxUzCl5AeEjXBfWxCwc&index=15 Transformer-based Image ModelsViT: Vision TransformerMain Idea트랜스포머 모델을 이미지에도 그대로 적용Patch embedding이미지를 16x16의 패치들로 분할 (단어의 토큰과 동일한 ..
[Computer Vision] Transformers I
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=NIFnKN2tWsE&list=PL0E_1UqNACXDTwuxUzCl5AeEjXBfWxCwc&index=14 Word Embedding 이미지 처럼 단어도 벡터로 표현될 수 있음d 차원의 공간 상에서 벡터로 표현이에 따라 문장도 벡터로 표현 가능Word2vec대규모 코퍼스를 이용하여주변 단어들로부터 현재 단어를 예측 (Common Bag of ..
[Computer Vision] RNN-based Video Models
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=-iwEKM56BpU&list=PL0E_1UqNACXDTwuxUzCl5AeEjXBfWxCwc&index=13 RNN-based Spatio-Temporal ModelingLRCN비디오는 프레임의 시퀀스이므로, CNN을 통해 일련의 시퀀스로부터 특징을 추출하고 이를 RNN에 넣는 것이 가장 기본적인 RNN-based Video ModelingLR..
[CS231n] Lecture 10 | Recurrent Neural Networks
·
CS231n
더보기CS231n 강의 홈페이지: https://cs231n.stanford.edu/CS231n Spring 2017 유튜브 강의 영상: https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk강의 슬라이드 & 한글 자막: https://github.com/visionNoob/CS231N_17_KOR_SUB Overview of Recurrent Neural NetworksVanilla Neural Networks지금까지 살펴본 아키텍처들은 고정된 길이의 이미지 또는 벡터를 입력으로 받아 하나의 출력을 내보냄이는 다양한 길이의 입력 및 출력을 다루기 어렵다는 한계가 존재RNN을 사용한 다양한 입출력 모델RNN은 ..
[CS231n] Lecture 9 | CNN Architectures
·
CS231n
더보기CS231n 강의 홈페이지: https://cs231n.stanford.edu/CS231n Spring 2017 유튜브 강의 영상: https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk강의 슬라이드 & 한글 자막: https://github.com/visionNoob/CS231N_17_KOR_SUB Recap of LeNet산업에 최초로 적용된 CNNstride가 1인 5x5 필터몇 개의 Conv layer와 pooling layer를 거치고 끝단에는 FC layerAlexNet Idea총 5개의 Conv layer와 2개의 FC layer로 구성특정 Conv layer 뒤에 max pooling lay..
[Paper Review] Robust Sound-Guided Image Manipulation
·
Paper Review
더보기arXiv: https://arxiv.org/abs/2208.14114Demo: https://kuai-lab.github.io/robust-demo/ Abstract기존의 StyleCLIP을 활용한 텍스트 입력 기반의 이미지 조작은 풍부한 의미론적 단서를 제공하는 데에 한계를 가지고 있다는 것을 관찰했다. 이 문제를 해결하기 위해 더 동적이고 풍부한 의미론적 단서를 제공할 수 있는 사운드라는 추가적인 모달리티인 소리를 활용하는 것을 제안하였다. 본 논문에서는 먼저 이미지-텍스트 공동 임베딩 공간을 사운드까지 확장하고, 사운드 입력(e.g. 빗소리)에 따라 주어진 이미지를 조작하기 위해 직접적인 잠재 최적화 방법을 적용하는 새로운 접근 방식을 제안하였다. 사운드 기반이 이미지 조작 접근 방식이 기존..
[CS231n] Lecture 8 | Deep Learning Software
·
CS231n
더보기CS231n 강의 홈페이지: https://cs231n.stanford.edu/CS231n Spring 2017 유튜브 강의 영상: https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk강의 슬라이드 & 한글 자막: https://github.com/visionNoob/CS231N_17_KOR_SUB PyTorchThree Levels of AbstractionTensor다차원 배열로 Numpy의 배열과 유사GPU에서 연산 수행 가능Variable그래프의 노드로 볼 수 있으며 autograd을 통해 그래디언트를 계산하는 데 사용됨이 기능을 통해 역전파를 쉽게 구현 가능Module신경망을 구성하는 블록신경망..