[5주차/백서경/논문리뷰] An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale(2021)
해당 글은 노션에서 작성되었습니다. 이미지를 포함한 자세한 내용은 https://western-hortensia-8e0.notion.site/An-Image-Is-Worth-16x16-Words-Transformers-for-Image-Recognition-at-Scale-2021-ed4c78a65b4345fc89b2eff811185558?pvs=4 를 참고해주세요!
ViT는 CNN보다 image-specific inductive bias가 부족함
raw image patch 대신에 feature map을 input sequence로 줄 수도 있음
[4주차 / 김지윤 / 논문 리뷰] Generative Adversarial Nets(GAN) (0) | 2023.08.06 |
---|---|
[4주차 / 임종우 / 논문리뷰] Generative Adversarial Nets (0) | 2023.08.06 |
[5주차/김지윤/논문리뷰]ViTPose:SimpleVisionTransformerBaselinesfor HumanPoseEstimation (0) | 2023.08.03 |
[5주차 / 박민규 / 논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Pose Estimation (0) | 2023.08.03 |
[4주차 / 박민규 / 논문리뷰] Generative Adversial Nets (0) | 2023.08.03 |
댓글 영역