KUBIG 2023-2 활동 블로그

고정 헤더 영역

글 제목

메뉴 레이어

KUBIG 2023-2 활동 블로그

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (68)
    • KUBIG (0)
    • 2023 Summer Session (68)
      • ML (0)
      • DL (9)
      • CV Team 1 (19)
      • CV Team 2 (24)
      • CV Team 3 (16)
      • NLP (0)

검색 레이어

KUBIG 2023-2 활동 블로그

검색 영역

컨텐츠 검색

분류 전체보기

  • [7주차 / 박민규 / 논문리뷰] Big Transfer : General Visual Representation Learning

    2023.08.17 by 민규라면

  • [6주차 / 박민규 / 논문리뷰 ] ViTAE

    2023.08.17 by 민규라면

  • [7주차/논문리뷰/이서연] Mask R-CNN

    2023.08.17 by 쏘니냐

  • [6주차/임청수/논문리뷰] Diffusion Models Beat GANs on Image Synthesis

    2023.08.16 by 임청수

  • [7주차/강민채/논문리뷰] CornerNet

    2023.08.14 by eahcnim

  • [6주차 / 김지윤 / 논문리뷰] ViTAE : Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

    2023.08.11 by Jiyoongee

  • [6주차/최유민/논문리뷰] High-Resolution Image Synthesis with Latent Diffusion Models

    2023.08.11 by 도지01

  • [6주차/백서경/논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Post Estimation (2022)

    2023.08.10 by bravesk

[7주차 / 박민규 / 논문리뷰] Big Transfer : General Visual Representation Learning

Big Transfer Transfer learning을 목적으로 만들어진 모델로 이전까지의 SOTA 보다 더 좋은 성능을 보이는 모델이다. 큰 크기의 dataset $D_A$로 pre-trained CNN을 불러와 feature extractor의 가중치를 BiT의 초기 가중치로 사용한다. 이때 pre-trained 네트워크를 학습시킨 $D_A$ 와 나의 네트워크를 학습시킨 작은 크기 dataset $D_B$ 가 유사한 특징을 가진다면, 사전학습된 네트워크의 Task $T_A$와 나의 네트워크의 Task $T_B$ 가 다르더라도 학습 속도 및 정확성의 향상이 이루어진다. $T_A$와 $T_B$가 다르기 때문에 나의 네트워크의 초기 가중치를 사전 학습된 네트워크의 가중치($A'$)를 사용하고, 추가적으로..

2023 Summer Session/CV Team 2 2023. 8. 17. 16:23

[6주차 / 박민규 / 논문리뷰 ] ViTAE

사전지식 ViT는 1) 일련의 visual token에 이미지를 임베팅하고 2) 누적된 transformer block을 사용하여 그들간의 글로벌 종속성을 모델링하는 최초의 모델이라는 의의가 있다. ViT의 단점 large-scale traning data를 필요로 하고, training schedule이 길다. 또한 edge & corner와 같은 local visual structure를 모델링하고 convolution과 같은 다양한 스케일의 물체를 처리할 때 필요한 intrinsic inductive bias(IB)가 부족하다. 따라서 ViT는 IB를 large-scale data로부터 암묵적으로 학습해야 한다는 단점을 지닌다. 반면 CNN은 태생적으로 scale-invariance 및 지역성을 가..

2023 Summer Session/CV Team 2 2023. 8. 17. 16:16

[7주차/논문리뷰/이서연] Mask R-CNN

Mask R-CNN 0. Abstract - 본 연구진은 object instance segmentation을 위한 단순하고, flexible 하며 general한 프레임 워크를 구축하였다. 본 모델은 이미지의 object를 detect함과 동시에 각각의 인스턴스에 대하여 고퀄리티의 segmentation mask를 생성한다. 이 방법을 Mask R-CNN이라고 하며 Faster R-CNN의 bounding box recognition에 object mask를 예측하는 파이프 라인을 parallel하게 더한 것이다. Mask R-CNN은 학습하기 쉬우며 다른 task에 일반화하기가 쉽다는 장점을 가진다. 이 방법은 COCO의 3개의 챌린지(instance segmentation, boundingbox o..

2023 Summer Session/CV Team 1 2023. 8. 17. 00:35

[6주차/임청수/논문리뷰] Diffusion Models Beat GANs on Image Synthesis

Reference [paper] : https://arxiv.org/abs/2105.05233. [youtube] : https://www.youtube.com/watch?v=gN1FQhQsUTE 논문익는마을 - 김보민 [youtube] : https://www.youtube.com/watch?v=jaPPALsUZo8&t=4749s 모두의연구소

2023 Summer Session/CV Team 3 2023. 8. 16. 14:29

[7주차/강민채/논문리뷰] CornerNet

1. Introduction & Overview CornerNet은 anchor box 없이 객체를 탐지하는 방법을 제안한다. 좌측 상단과 우측 하단의 keypoint만으로 bbox를 찾아내기 때문에, 기존의 one stage detector들이 가지고 있었던 다음과 같은 문제들로부터 자유롭다. - 기존 detection 방식은 G.T.와 충분히 겹치는 anchor box를 찾기 위해 매우 많은 수의 anchor box를 생성해야 하고, 이로 인해 학습 속도가 느려진다는 문제점이 있었다. - anchor box를 사용하는 경우 개수, 크기, 종횡비 등 관련 hyper-parameter들이 많이 필요하다는 문제점이 있었다. 2. Structure CornerNet의 기본 구조는 다음과 같다. Backbon..

2023 Summer Session/CV Team 1 2023. 8. 14. 16:47

[6주차 / 김지윤 / 논문리뷰] ViTAE : Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

💡 ViTAE는 ViT에 CNN의 intrinsic IB(Inductive Bias)를 도입하기 위한 것. 1. Introduction ViT 단점 ViT가 로컬 시각적 구조(특히, 가장자리와 모서리)를 모델링하거나 컨볼루션과 같은 방식으로 다양한 스케일의 객체를 처리하는 데 내재적인 인덕티브 바이어스(IB)가 부족 반면, CNN은 자연스럽게 내재적인 스케일 불변성과 지역성을 가져 비전 작업에서 여전히 주요한 백본(backbone)으로 사용됨. CNN의 내재적인 IB를 명시적으로 비전 트랜스포머에 도입하여 네트워크 구조를 재설계함. CNN과 유사한 디자인을 트랜스포머에 적용하여 다양한 스케일의 컨텍스트를 토큰에 내재시키는 방법을 탐구 → 토큰이 다양한 객체의 특징을 가지도록 하여 내재적인 스케일 불변성 ..

2023 Summer Session/CV Team 2 2023. 8. 11. 23:54

[6주차/최유민/논문리뷰] High-Resolution Image Synthesis with Latent Diffusion Models

1. Abstract - Diffusion model은 이미 image synthesis 에서 SOTA를 달성하였음 - 하지만, 기존 모델들은 픽셀 공간에서 연산을 진행하여, 수백일의 GPUdays가 필요하고, inference 비용이 높음 - 본 논문에선 pretrained AutoEncoder를 이용, latent space에서 DM training을 적용해 적은 computional resourse로 좋은 퀄리티를 얻어냄 - 복잡성 감소와 디테일 보존 사이에서 최적 지점 도달 - Attention layer를 추가하여 다양한 task에 diffusion model을 적용하였음 - SOTA : image inpainting, class-conditional image synthesis - Compet..

2023 Summer Session/CV Team 3 2023. 8. 11. 17:06

[6주차/백서경/논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Post Estimation (2022)

해당 글은 노션에서 작성되었습니다. 글과 사진이 깨지는 부분이 있어 자세한 내용은 https://western-hortensia-8e0.notion.site/ViTPose-Simple-Vision-Transformer-Baselines-for-Human-Post-Estimation-2022-05ddcec739774f54b2a453d091102147?pvs=4 를 참고해주세요! 3. ViTPose 1. Patch embedding layer input : original image [downsample] person instance가 있는 image가 주어지면, downsampling ratio인 dd 짜리 patch로 나눠준다. $\mathbb{R}^{d^23}$ 인 patch $N(=\frac{H}{d..

2023 Summer Session/CV Team 2 2023. 8. 10. 19:56

추가 정보

인기글

최신글

페이징

이전
1 2 3 4 5 ··· 9
다음
TISTORY
KUBIG 2023-2 활동 블로그 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바