상세 컨텐츠

본문 제목

[3주차/임청수/논문리뷰] Image Style Transfer Using Convolutional Neural Networks

2023 Summer Session/CV Team 3

by 임청수 2023. 7. 26. 19:13

본문

 

작성자 : 17기 임청수

 

논문 핵심 요약

 

  • CNN 구조를 활용해서 이미지에 스타일을 입히는 Style Transfer 구현
  • 생성되는 이미지의 물체, 배경 등의 content와 style을 독립적으로 반영 가능
  • 해상도가 높으면 속도가 느린게 아쉽

 

 

 


 

 

1.  Introduction

 

  • Texture transfer

Target image의 content를 유지하면서 source image의 texture와 일치시키는 것을 의미한다. 

 

 

content : object, scenery

texture transfer = style transfer

 

 

  • 논문에서 style transfer 정의

생성한 이미지가 스타일 이미지와 유사하면서 콘텐트 이미지의 사물과 풍경을 잘 나타내는 것.

따라서 일반적으로 생각하는 스타일과 정의가 다르며 수학적으로 성능을 설명할 수 없다.

 

 

  • 기존 연구

 

기존 Texture transfer에 대한 연구는 low level feature에만 국한되었다는 한계가 있다. 본 논문에서 제안한 CNN 기반 style transfer는 high level feature도 추출해낼 수 있게 되었다.

 

 

Low level feature : 윤곽선, 모서리, 각도, 색상 등(Lines, corners, Edges etc.) 그 자체로는 이미지와 관련이 없으며 이미지마다 고유되는 특성을 의미

High level feature : 객체 장면 등(meaningful images, objects, scenery) 개념적이고 주제를 가진 것. 이미지 주제에 대한 세부적인 정보를 포함.

 

 

 

CNN을 활용하여 style transfer를 구현하면서 기존 연구와 달리 하나의 인공신경망에 대한 최적화 문제로 단순화할 수 있게 되었다. 

즉, 새로운 이미지 생성은 사전 이미지를 스타일 이미지와 일치시키는 형태로 진행된다.

 

 

 

2. Deep image representations

 

본 연구는 16 conv layer와 5 pooling layer로 구성된 19-layer VGG network를 사용한다. feauture map 값은 전체 이미지와 위치 별로 평균 1이 되도록 정규화한다.fully connected layer는 사용하지 않는다. 모델 학습 과정에서 layer마다 filter를 통과하여 추출된 feature map값을 활용한다. pooling은 max pooling 대신 average pooling을 사용한다. 

 

 

 

2.1  Content representation

 

 

 

 

 

 

 

학습은 noise image와 content image에 대하여 feature map 값이 일치하도록 학습한다. higher layer는 객체나 배경 등 high level content를 추출한다. 반면 lower layer는 원본 이미지의 실제 픽셀 값들에 영향을 줄 뿐 content를 설명하지는 못한다. 따라서 higher layer에서의 특성값만 content representation이라 부른다. 

 

 

 

 

2.2  Style representation

 

 

 

 

 

  • Style loss는 입력 이미지와 스타일 이미지의 gram matrix 값 차이로 정의된다. 즉, 하나의 layer에서 서로 다른 feature map의 내적 값은 이미지의 스타일 특성을 가진다.

 

  • 서로 다른 feature map의 상관관계가 크다는 것은 feature map의 각 위치 별 특성값의 분포가 서로 다른 feature map에서 유사함을 나타낸다. 각 feature map들은 서로 다른 특성(둥글다, 뾰족하다 등)을 추출하는 역할을 하기 때문에 어떤 특성을 추출하느냐에 관계없이 스타일이 비슷하다는 것은 각 위치 별 특성값의 분포가 유사함을 의미한다. 

 

 

 

 

 

 

 

 

style과 content image에 대해 각각 따로 학습한 경우

 

  • 일반적인 CNN 모델에서 layer가 깊어질수록 채널 수는 증가하고 feature map의 사이즈는 감소한다. 위 실험은 content와 style에 대해 각각 layer마다 학습했을 때의 결과물을 나타내고 있다. 

 

  1. Style representation은 layer가 낮을 때 스타일의 위치가 보존되면서 해상도가 뚜렷해지는 반면, layer가 깊을 때 위치와 해상도는 불분명해지면서 픽셀 정보도 훼손되는 것을 알 수 있다. 전체적으로 content는 소멸되고 색상과 그림체에 대한 스타일만 살아남는다.
  2. Content representation은 layer가 낮을 때 원래 정보를 잘 보존하고 있는 반면, layer가 깊어질수록 원본 정보가 훼손되고 디테일한 픽셀 정보는 소실되는 것을 알 수 있다. 전반적으로 객체에 대한 content는 유지됨을 알 수 있다.
  3. 따라서 동일한 레이어에서 style과 content를 동시에 학습한다면 해상도가 유지된 상태에서 content는 유지되고 style만 더해진 형태로 이미지가 생성될 것으로 예상할 수 있다.
  4. 따라서 각 레이어마다 style loss + content loss를 계산하고 모든 레이어의 loss값을 합하면 Total loss가 된다. 이때 loss마다 하이퍼파라미터를 곱하여 반영 비율을 조절할 수 있도록 한다. 

 

Total loss는 content loss와 style loss의 선형 결합으로 표현된다.

 

 

 

3.  Results

 

논문의 핵심은 content와 style의 표현을 CNN을 통해 각각 독립적으로 추출 가능하다는 것이다.

 

 

 

3.1  Trade-off between content and style matching

 

Total loss는 content loss와 style loss의 선형결합이기 때문에 가중치에 따라 각각 강조해서 표현 가능하다.

그림을 style image로 사용하고 사진을 content image로 사용한 경우, style을 강조하면 이미지는 미술 작품과 비슷해지지면서 texture 특성을 갖는다. 하지만 물체 등 내용은 훼손된다. 반면 content를 강조하면 이미지는 사진과 유사해지지만 그림과는 잘 매칭되지 않는다.

 

 

 

 

3.2  Effect of different layers of the Convolutional Neural Network

 

어떤 layer를 사용하느냐에 따라 결과물에 차이가 발생할 수 있다. 

style representation을 higher layer와 매칭한다면 local image 구조는 large scale 단위로 보존이 되기 때문에 더 smoother하고 연속적인 시각적 효과를 준다. 따라서 스타일 특성이 더 강조될 수 있다.

 

content representation을 lower layer와 매칭하면 세부적인 픽셀 정보를 보존할 수 있지만 그림에서 나타난 스타일과 texture는 잘 반영되지 않는다. 반면 higher layer와 매칭하면 세부적인 픽셀 정보는 많이 달라지지만 style image의 texture는 많이 반영할 수 있다.

 

 

 

 

 

3.3  Initialisation of gradient descent

 

초기 이미지를 어떻게 설정하느냐도 결과에 영향을 준다. 

  1. 초기 이미지를 content image나 style image로 설정할 수 있지만 결과값에 큰 차이는 없다. 그리고 고정된 이미지를 사용했을 때의 결과물은 항상 동일하다. 
  2. 반면 noise image를 초기 이미지로 설정한다면 매번 조금씩 다른 결과물이 출력됨을 알 수 있었다. 

 

 

 

 

4.  Discussion

 

본 연구의 몇 가지 한계가 있다.

 

 

  1. 해상도가 높아질수록 계산량이 많아지면서 추출 속도가 상당히 느려진다.
  2. 이미지는 가끔 저수준의 노이즈가 포함된다.
  3. 스타일과 콘텐트에 대한 정의가 분명하지 않기 때문에 두 가지를 완벽하게 분리했다고 보기는 어렵다. 

 

 

그럼에도 불구하고 인공신경망과 인간의 생물학적 시각 시스템은 상당한 유사점이 있다는 점으로 추측해볼 때, 스타일을 추상화하거나 예술작품을 생성하고 즐기는 사람의 능력은 시각 시스템의 추론 과정에서 왔을지도 모른다.

 

 

 

 

 

 

[리뷰 자료]

 

 

 

Style_Transfer 임청수 리뷰.pdf
9.35MB

 

관련글 더보기

댓글 영역