KUBIG 2023-2 활동 블로그

고정 헤더 영역

글 제목

메뉴 레이어

KUBIG 2023-2 활동 블로그

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (68)
    • KUBIG (0)
    • 2023 Summer Session (68)
      • ML (0)
      • DL (9)
      • CV Team 1 (19)
      • CV Team 2 (24)
      • CV Team 3 (16)
      • NLP (0)
홈태그방명록
  • KUBIG 0
  • 2023 Summer Session 68
    • ML 0
    • DL 9
    • CV Team 1 19
    • CV Team 2 24
    • CV Team 3 16
    • NLP 0

검색 레이어

KUBIG 2023-2 활동 블로그

검색 영역

컨텐츠 검색

2023 Summer Session/CV Team 2

  • [4주차/백서경/논문리뷰] Auto-Encoding Variational Bayes

    2023.08.06 by bravesk

  • [4주차 / 김지윤 / 논문 리뷰] Generative Adversarial Nets(GAN)

    2023.08.06 by Jiyoongee

  • [4주차 / 임종우 / 논문리뷰] Generative Adversarial Nets

    2023.08.06 by imngooh

  • [5주차/백서경/논문리뷰] An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale(2021)

    2023.08.05 by bravesk

  • [5주차/김지윤/논문리뷰]ViTPose:SimpleVisionTransformerBaselinesfor HumanPoseEstimation

    2023.08.03 by Jiyoongee

  • [5주차 / 박민규 / 논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Pose Estimation

    2023.08.03 by 민규라면

  • [4주차 / 박민규 / 논문리뷰] Generative Adversial Nets

    2023.08.03 by 민규라면

  • [5주차 / 임종우 / 논문리뷰] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

    2023.08.03 by imngooh

[4주차/백서경/논문리뷰] Auto-Encoding Variational Bayes

해당 글은 노션에서 작성되었습니다. 티스토리에서 깨지는 부분이 많아, 이미지를 포함한 자세한 설명은 https://western-hortensia-8e0.notion.site/Auto-Encoding-Variational-Bayes-2013-c7f29e7e85a54ed6a9168d94891e217a?pvs=4 를 참고해주세요! 0. Background AE vs VAE? 통계와 수학으로 가득한 내용에 걸맞게 논문의 제목이 Auto-Encoding Variational Bayes인 것과 달리, 우리에게 흔히 알려져 있는 이름은 VAE(variational autoencoder)이다. 그렇다면 이 논문은 autoencoder와는 어떤 관계에 있는 것일까? AE의 구조 Autoencoder는 인코더-디코더로 ..

2023 Summer Session/CV Team 2 2023. 8. 6. 23:58

[4주차 / 김지윤 / 논문 리뷰] Generative Adversarial Nets(GAN)

0. Abstract 2가지 모델을 훈련시켜 적대적인 프로세스를 통해 생성모델을 평가하는 새로운 프레임워크를 제시한다. 데이터를 제공하는 생성모델 G와 해당 데이터가 G가 만든것인지, 원본인지 확률을 평가하는 구별모델 D. G는 D가 실수할 확률을 높이는 방향으로 학습된다.(잘 구별하지 못하도록). 이 프레임워크는 2인용 minimax 게임과 비슷하다. 임의의 경우에서 G 와 D는 각각 유일한 답이 존재하며 모두 1/2의 확률을 갖는다. G와 D가 다층퍼셉트론의 구조를 가지고 있다면 역전파를 이용한 학습이 가능하다. 1. Introduction 딥러닝은 계층적이고 풍부한 모델을 학습하여 이미지, 음성을 포함한 오디오 파형, 자연어 특징과 같은 데이터를 인공지능을 활용하여 확률로 나타내어 준다. 성공한 딥..

2023 Summer Session/CV Team 2 2023. 8. 6. 21:57

[4주차 / 임종우 / 논문리뷰] Generative Adversarial Nets

Generative Adversarial Nets Abstract adversarial process, Generator와 Discriminator의 적대적 학습을 통한 새로운 생성모델 제시 Generator로 하여금 Discriminator가 최대한 틀린 판단을 하도록 이미지를 생성해야하는 two-player game 형태의 학습 과정 제시 G와 D 모두 neural network(fc layers)로 이루어져 있어 end-to-end 학습이 가능함 Introduction 이전까지, 딥러닝의 유망함을 널리 알려져왔고 무언가를 판별(discriminative)하는 분야에서 딥러닝이 많은 성공을 가져왔다. 반면, 무언가를 생성(generate)하는 분야에서 딥러닝은 그만큼의 임팩트를 남기지 못했다. 이는 ..

2023 Summer Session/CV Team 2 2023. 8. 6. 17:22

[5주차/백서경/논문리뷰] An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale(2021)

해당 글은 노션에서 작성되었습니다. 이미지를 포함한 자세한 내용은 https://western-hortensia-8e0.notion.site/An-Image-Is-Worth-16x16-Words-Transformers-for-Image-Recognition-at-Scale-2021-ed4c78a65b4345fc89b2eff811185558?pvs=4 를 참고해주세요! 1. Introduction [ NLP ] Transformer (self-attention based architectures) large text corpus에 대해 pre-train하고, smaller task-specific dataset에 대해 fine-tune하는 것이 dominant approach [ CV ] convoluti..

2023 Summer Session/CV Team 2 2023. 8. 5. 15:01

[5주차/김지윤/논문리뷰]ViTPose:SimpleVisionTransformerBaselinesfor HumanPoseEstimation

0. Abstract VitPose 가 나오기 이전, 특정 도메인 지식 없이도 일반적인 비전 트랜스포머가 시각 인식 작업에서 뛰어난 성능을 보여주었지만 포즈 추정에 있어서는 언급이 없었다. 모델 구조의 단순함, 모델 크기의 확장성, 훈련 패러다임의 유연성, 모델 간의 지식 전달 능력을 강조한다. 비계층적인 비전 트랜스포머 사용하여 특정 인물 인스턴스의 특징을 추출하는 백본으로 사용하며, 가벼운 디코더(decoder)를 사용하여 포즈 추정 수행. 모델 용량의 확장성과 트랜스포머의 고도로 병렬 처리 가능한 특징을 활용하여 100M에서 1B 파라미터로 확장될 수 있음. 이로 인해 처리량과 성능 간의 새로운 Pareto frontier를 설정. 또한, 어텐션 유형, 입력 해상도, 사전 훈련 및 미세 조정 전략,..

2023 Summer Session/CV Team 2 2023. 8. 3. 23:58

[5주차 / 박민규 / 논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Pose Estimation

ViTPose 지금까지 Pose Estimation 작업에 Vision Transformer를 적용하는 방법은 다음과 같았다. CNN을 BackBone으로 사용하여 추출된 특정을 Transformer에 사용하는 방법 (TokenPose, TransPose) Keypoint들의 위치를 잘 찾아내기 위해서 Encoder와 Decoder를 통합하는 방법 (PRTR) Transformer로 직접적으로 특징을 추출하도록 하고, 복잡한 구조를 통해 성능을 높히는 방법 (HRFormer) 기존의 방법들은 pose estimation에서 좋은 성능을 내는 것은 맞다. 하지만 feature extraction을 위해 추가적인 CNN 네트워크가 필요하거나, task에 맞는 transformer structure를 조심스럽..

2023 Summer Session/CV Team 2 2023. 8. 3. 20:37

[4주차 / 박민규 / 논문리뷰] Generative Adversial Nets

GAN 이미지 데이터는 다차원 feature space의 한점으로 표현할 수 있으며, 이미지의 문포를 근사하는 모델을 학습할 수 있다. 사람의 얼굴에는 통계적인 평균치가 존재하는데 모델은 이를 수치적으로 표현할 수 있다. GAN은 image에 대해서 다변수확률로써 확률분포를 학습한다. feature map 상에서 확률분포는 다음과 같다. Generative Model은 실존하지 않지만 있을 법한 이미지를 생성할 수 있는 모델을 의미한다. 확률분포를 잘 학습할 수 있다면, GAN 모델은 통계적인 평균치를 내제하여 확률 값이 높은 부분을 sampling하면 있음직한 이미지를 얻을 수 있다. 생성 모델의 목표는 image data의 distribution을 근사하는 모델 G를 만드는 것이며, 모델 G는 원본 ..

2023 Summer Session/CV Team 2 2023. 8. 3. 20:30

[5주차 / 임종우 / 논문리뷰] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

작성자 : 17기 임종우 Attention 디코더에서 출력 단어를 예측하는 모든 time step에 인코더의 모든 output을 참고할 수 있다는 아이디어 다만 이때, 해당 time step에서 주목해야할 부분과 관련이 있는 부분에 더 집중하여 살펴본다. RNN을 통한 machine translation task에서, Query, key, value간의 계산을 통해 attention score를 만들어 사용한다. Transformer RNN을 배제하고 attention module 만으로 encoder 및 decoder를 구성한 모델 구조 self-attention 입력 시퀀스를 query, key, value 세가지 모두로 사용하여 attention에 대한 계산을 진행함 Query : 질의 값 Key ..

2023 Summer Session/CV Team 2 2023. 8. 3. 20:26

추가 정보

인기글

최신글

페이징

이전
1 2 3
다음
TISTORY
KUBIG 2023-2 활동 블로그 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.