[3주차/임청수/논문리뷰] Image Style Transfer Using Convolutional Neural Networks
작성자 : 17기 임청수
Target image의 content를 유지하면서 source image의 texture와 일치시키는 것을 의미한다.
content : object, scenery
texture transfer = style transfer
생성한 이미지가 스타일 이미지와 유사하면서 콘텐트 이미지의 사물과 풍경을 잘 나타내는 것.
따라서 일반적으로 생각하는 스타일과 정의가 다르며 수학적으로 성능을 설명할 수 없다.
기존 Texture transfer에 대한 연구는 low level feature에만 국한되었다는 한계가 있다. 본 논문에서 제안한 CNN 기반 style transfer는 high level feature도 추출해낼 수 있게 되었다.
Low level feature : 윤곽선, 모서리, 각도, 색상 등(Lines, corners, Edges etc.) 그 자체로는 이미지와 관련이 없으며 이미지마다 고유되는 특성을 의미
High level feature : 객체 장면 등(meaningful images, objects, scenery) 개념적이고 주제를 가진 것. 이미지 주제에 대한 세부적인 정보를 포함.
CNN을 활용하여 style transfer를 구현하면서 기존 연구와 달리 하나의 인공신경망에 대한 최적화 문제로 단순화할 수 있게 되었다.
즉, 새로운 이미지 생성은 사전 이미지를 스타일 이미지와 일치시키는 형태로 진행된다.
본 연구는 16 conv layer와 5 pooling layer로 구성된 19-layer VGG network를 사용한다. feauture map 값은 전체 이미지와 위치 별로 평균 1이 되도록 정규화한다.fully connected layer는 사용하지 않는다. 모델 학습 과정에서 layer마다 filter를 통과하여 추출된 feature map값을 활용한다. pooling은 max pooling 대신 average pooling을 사용한다.
학습은 noise image와 content image에 대하여 feature map 값이 일치하도록 학습한다. higher layer는 객체나 배경 등 high level content를 추출한다. 반면 lower layer는 원본 이미지의 실제 픽셀 값들에 영향을 줄 뿐 content를 설명하지는 못한다. 따라서 higher layer에서의 특성값만 content representation이라 부른다.
논문의 핵심은 content와 style의 표현을 CNN을 통해 각각 독립적으로 추출 가능하다는 것이다.
Total loss는 content loss와 style loss의 선형결합이기 때문에 가중치에 따라 각각 강조해서 표현 가능하다.
그림을 style image로 사용하고 사진을 content image로 사용한 경우, style을 강조하면 이미지는 미술 작품과 비슷해지지면서 texture 특성을 갖는다. 하지만 물체 등 내용은 훼손된다. 반면 content를 강조하면 이미지는 사진과 유사해지지만 그림과는 잘 매칭되지 않는다.
어떤 layer를 사용하느냐에 따라 결과물에 차이가 발생할 수 있다.
style representation을 higher layer와 매칭한다면 local image 구조는 large scale 단위로 보존이 되기 때문에 더 smoother하고 연속적인 시각적 효과를 준다. 따라서 스타일 특성이 더 강조될 수 있다.
content representation을 lower layer와 매칭하면 세부적인 픽셀 정보를 보존할 수 있지만 그림에서 나타난 스타일과 texture는 잘 반영되지 않는다. 반면 higher layer와 매칭하면 세부적인 픽셀 정보는 많이 달라지지만 style image의 texture는 많이 반영할 수 있다.
초기 이미지를 어떻게 설정하느냐도 결과에 영향을 준다.
본 연구의 몇 가지 한계가 있다.
그럼에도 불구하고 인공신경망과 인간의 생물학적 시각 시스템은 상당한 유사점이 있다는 점으로 추측해볼 때, 스타일을 추상화하거나 예술작품을 생성하고 즐기는 사람의 능력은 시각 시스템의 추론 과정에서 왔을지도 모른다.
[리뷰 자료]
댓글 영역