[6주차 / 임종우 / 논문리뷰] ViTPose : Simple Vision Transformer Baselines for Human Pose Estimation
Scalability : scalable한 simple pre-trained vision transformer의 발전으로, layer의 수, feature dimenstion의 수를 조절하여 모델의 사이즈를 쉽게 조절할 수 있다.
Flexibility : 아주 유연한 학습을 적용할 수 있다. 모델을 조금만 수정하면 다양한 input resolution과 feture resolution을 이용하여 학습할 수 있고, 여러개의 pose dataset에 대해서도 추가적인 decoder를 사용함으로써 유연하게 적용할 수 있다.
댓글 영역