[Computer Vision] Metric Learning
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=cv_iOJ_OaUM&t=1723s Metric LearningTask객체(이미지, 비디오 등)들 간의 distance function을 학습하는 task두 개 혹은 그 이상의 샘플을 입력 받아 스코어를 출력스코어는 샘플들 간의 거리를 의미여기서 거리는 데이터에 따라 그 의미가 달라짐모델은 데이터로부터 관계를 학습 Data객체들 간의 유사성을 ..
[Computer Vision] Segmentation
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=oqBr_4du-94 Semantic Segmentation기존 분류 문제가 이미지 전체를 대상으로 했다면 semantic segmentation은 픽셀 단위로 분류 수행First Ideas for Semantic Segmentation단순히 픽셀 하나만 보고 이를 분류하는 것은 어려움그림과 같이 주변 픽셀들도 동시에 보고 타겟 픽셀에 대한 분..
[Computer Vision] Object Detection
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=W6EVlzVP0TM Object DetectionBasics기존 분류 문제는 단순히 이미지를 특정 클래스로 분류하는 것객체 검출은 이미지 내의 객체의 위치와 그 객체가 무엇인지를 추정해야 함Class (What)Bounding box (Where)ConfidenceDataset 데이터셋은 기본적으로 객체의 클래스를 포함하고 객체의 위치는 두 ..
[Computer Vision] Transformers II
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=LBqfClEnV2U&list=PL0E_1UqNACXDTwuxUzCl5AeEjXBfWxCwc&index=15 Transformer-based Image ModelsViT: Vision TransformerMain Idea트랜스포머 모델을 이미지에도 그대로 적용Patch embedding이미지를 16x16의 패치들로 분할 (단어의 토큰과 동일한 ..
[Computer Vision] Transformers I
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=NIFnKN2tWsE&list=PL0E_1UqNACXDTwuxUzCl5AeEjXBfWxCwc&index=14 Word Embedding 이미지 처럼 단어도 벡터로 표현될 수 있음d 차원의 공간 상에서 벡터로 표현이에 따라 문장도 벡터로 표현 가능Word2vec대규모 코퍼스를 이용하여주변 단어들로부터 현재 단어를 예측 (Common Bag of ..
[Computer Vision] RNN-based Video Models
·
Computer Vision
본 포스팅은 서울대학교 이준석 교수님의 '시각적 이해를 위한 머신러닝 (2023 spring)' 강의를 바탕으로 작성되었습니다.모든 내용의 출처는 해당 강의에 있습니다.Courses: http://viplab.snu.ac.kr/viplab/courses/mlvu_2023_1/index.htmlYoutube: https://www.youtube.com/watch?v=-iwEKM56BpU&list=PL0E_1UqNACXDTwuxUzCl5AeEjXBfWxCwc&index=13 RNN-based Spatio-Temporal ModelingLRCN비디오는 프레임의 시퀀스이므로, CNN을 통해 일련의 시퀀스로부터 특징을 추출하고 이를 RNN에 넣는 것이 가장 기본적인 RNN-based Video ModelingLR..