KUBIG 2023-2 활동 블로그

고정 헤더 영역

글 제목

메뉴 레이어

KUBIG 2023-2 활동 블로그

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (68)
    • KUBIG (0)
    • 2023 Summer Session (68)
      • ML (0)
      • DL (9)
      • CV Team 1 (19)
      • CV Team 2 (24)
      • CV Team 3 (16)
      • NLP (0)

검색 레이어

KUBIG 2023-2 활동 블로그

검색 영역

컨텐츠 검색

2023 Summer Session/CV Team 2

  • [7주차 / 김지윤 / 코드리뷰] ViTAE

    2023.08.21 by Jiyoongee

  • [7주차/백서경/코드리뷰] ViTPose

    2023.08.21 by bravesk

  • [7주차 / 임종우 / 논문리뷰] ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

    2023.08.19 by imngooh

  • [7주차 / 박민규 / 논문리뷰] Big Transfer : General Visual Representation Learning

    2023.08.17 by 민규라면

  • [6주차 / 박민규 / 논문리뷰 ] ViTAE

    2023.08.17 by 민규라면

  • [6주차 / 김지윤 / 논문리뷰] ViTAE : Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

    2023.08.11 by Jiyoongee

  • [6주차/백서경/논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Post Estimation (2022)

    2023.08.10 by bravesk

  • [6주차 / 임종우 / 논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Pose Estimation

    2023.08.10 by imngooh

[7주차 / 김지윤 / 코드리뷰] ViTAE

github 연동하여 ViTAE pretrained model 을 활용해 보고자 한 코드 입니다. 추가로, DIFFUSION BASED IMAGE TRANSLATION USING DISENTANGLED STYLE AND CONTENT REPRESENTATION 논문을 리뷰해 보았습니다. https://openreview.net/pdf?id=Nayau9fwXU 0. Abstract diffusion 모델의 한계라고 언급되는 stochastic nature 란 게 뭘까? 이 성질때문에 reverse diffusion 하는 동안 이미지의 내용을 유지하기 힘듦. 💡 reverse diffusion이란? 잠재 공간에서의 확률 분포를 따라가면서 데이터를 생성하는 과정 → DiffuselT 등장! ViT 의 MHSA..

2023 Summer Session/CV Team 2 2023. 8. 21. 17:11

[7주차/백서경/코드리뷰] ViTPose

해당 글은 노션에서 작성되었습니다. 이미지와 템플릿이 깨지는 부분이 있으니, 자세한 내용은 https://western-hortensia-8e0.notion.site/ViTPose-a8b89326bd144dd09172039e7ce9eac3?pvs=4 를 참고해주세요! https://github.com/JunkyByte/easy_ViTPose backbone→ ViT head(TopdownHeatmapSimpleHead)→ Decoder model.py class ViTPose(nn.Module): def __init__(self, cfg: dict) -> None: super(ViTPose, self).__init__() backbone_cfg = {k: v for k, v in cfg['backbone..

2023 Summer Session/CV Team 2 2023. 8. 21. 12:22

[7주차 / 임종우 / 논문리뷰] ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

지난 주차 ViTPose 논문 리뷰에 이어 official github의 코드 리뷰를 진행하였음. 공식 github GitHub - ViTAE-Transformer/ViTPose: The official repo for [NeurIPS'22] "ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation" and [Arxiv'22] "ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation" 1. Backbone - ViT Patch Embedding class PatchEmbed(nn.Module): """ Image to Patch Emb..

2023 Summer Session/CV Team 2 2023. 8. 19. 15:20

[7주차 / 박민규 / 논문리뷰] Big Transfer : General Visual Representation Learning

Big Transfer Transfer learning을 목적으로 만들어진 모델로 이전까지의 SOTA 보다 더 좋은 성능을 보이는 모델이다. 큰 크기의 dataset $D_A$로 pre-trained CNN을 불러와 feature extractor의 가중치를 BiT의 초기 가중치로 사용한다. 이때 pre-trained 네트워크를 학습시킨 $D_A$ 와 나의 네트워크를 학습시킨 작은 크기 dataset $D_B$ 가 유사한 특징을 가진다면, 사전학습된 네트워크의 Task $T_A$와 나의 네트워크의 Task $T_B$ 가 다르더라도 학습 속도 및 정확성의 향상이 이루어진다. $T_A$와 $T_B$가 다르기 때문에 나의 네트워크의 초기 가중치를 사전 학습된 네트워크의 가중치($A'$)를 사용하고, 추가적으로..

2023 Summer Session/CV Team 2 2023. 8. 17. 16:23

[6주차 / 박민규 / 논문리뷰 ] ViTAE

사전지식 ViT는 1) 일련의 visual token에 이미지를 임베팅하고 2) 누적된 transformer block을 사용하여 그들간의 글로벌 종속성을 모델링하는 최초의 모델이라는 의의가 있다. ViT의 단점 large-scale traning data를 필요로 하고, training schedule이 길다. 또한 edge & corner와 같은 local visual structure를 모델링하고 convolution과 같은 다양한 스케일의 물체를 처리할 때 필요한 intrinsic inductive bias(IB)가 부족하다. 따라서 ViT는 IB를 large-scale data로부터 암묵적으로 학습해야 한다는 단점을 지닌다. 반면 CNN은 태생적으로 scale-invariance 및 지역성을 가..

2023 Summer Session/CV Team 2 2023. 8. 17. 16:16

[6주차 / 김지윤 / 논문리뷰] ViTAE : Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

💡 ViTAE는 ViT에 CNN의 intrinsic IB(Inductive Bias)를 도입하기 위한 것. 1. Introduction ViT 단점 ViT가 로컬 시각적 구조(특히, 가장자리와 모서리)를 모델링하거나 컨볼루션과 같은 방식으로 다양한 스케일의 객체를 처리하는 데 내재적인 인덕티브 바이어스(IB)가 부족 반면, CNN은 자연스럽게 내재적인 스케일 불변성과 지역성을 가져 비전 작업에서 여전히 주요한 백본(backbone)으로 사용됨. CNN의 내재적인 IB를 명시적으로 비전 트랜스포머에 도입하여 네트워크 구조를 재설계함. CNN과 유사한 디자인을 트랜스포머에 적용하여 다양한 스케일의 컨텍스트를 토큰에 내재시키는 방법을 탐구 → 토큰이 다양한 객체의 특징을 가지도록 하여 내재적인 스케일 불변성 ..

2023 Summer Session/CV Team 2 2023. 8. 11. 23:54

[6주차/백서경/논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Post Estimation (2022)

해당 글은 노션에서 작성되었습니다. 글과 사진이 깨지는 부분이 있어 자세한 내용은 https://western-hortensia-8e0.notion.site/ViTPose-Simple-Vision-Transformer-Baselines-for-Human-Post-Estimation-2022-05ddcec739774f54b2a453d091102147?pvs=4 를 참고해주세요! 3. ViTPose 1. Patch embedding layer input : original image [downsample] person instance가 있는 image가 주어지면, downsampling ratio인 dd 짜리 patch로 나눠준다. $\mathbb{R}^{d^23}$ 인 patch $N(=\frac{H}{d..

2023 Summer Session/CV Team 2 2023. 8. 10. 19:56

[6주차 / 임종우 / 논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Pose Estimation

Abstract Plain Vit를 사용하여 pose estimation을 수행하려 함 ViT의 모델 구조의 간단함, 모델 사이즈의 확장성, 학습의 유연함, 모델 사이 지식의 전파 가능성이라는 장점을 활용하여 ViTPose의 모델 구조를 제시함 attention type, input resolution, pre training and finetuning strategy등에 대해 매우 유연한 특징 knwoledge token을 사용하여 large model의 학습을 small model로 쉽게 transfer 할 수 있음 MS COCO keypotint detection에서 SOTA를 달성함 등장 배경 및 기본 구조 기존 VIT기반 pose estimation은 feature extraction을 위해 C..

2023 Summer Session/CV Team 2 2023. 8. 10. 00:50

추가 정보

인기글

최신글

페이징

이전
1 2 3
다음
TISTORY
KUBIG 2023-2 활동 블로그 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바