상세 컨텐츠

본문 제목

[3주차/이서연/논문리뷰] Style Transfer

2023 Summer Session/CV Team 1

by 쏘니냐 2023. 7. 26. 15:49

본문

Image Style Transfer Using Convolutional Neural Networks

1. Summary 

- 기존의 방식과 다르게 style transfer는 CNN 필터를 사용하여 얻은 high value feture을 사용하였다. 

특히 본 알고리즘은 임의의 사진에 대해 잘 알려진 예술작품의 화풍을  입히는 방식을 구현했고 이는 CNN을 활용한 deep immage represnetation에 대한 통찰력을 제공하였다. transfering stype은 다시 말해 texture transfer로 고려될 수 있으며 이것은 source image의 texture를 합성함과 동시에 target image의 semantic content를 보존하는 것이다. 기존의 texture transfer 방식들은 non-parametric methods에 의존했는데, 이들은 공통적으로 target image의 low level image feature만 이용한다는 한계를 가지고 있었다. 따라서 본 연구팀은 이상적인 style transfer를 가능하게 하는 A Neural Algorithm of Artistic Style 알고리즘을 고안함으로써 high level semantic information을 추출할 수 있도록 하였다. 

 

2. Model representation 

- 본 모델은 VGG network를 베이스로 하고 있으며, 이미지 합성을 위해 maximum pooling 대신 average pooling을 사용하고 있다. 

 

2.1 Content representation

MSE loss

- 본 연구에서는 원본 이미지(x)와 생성 이미지(p) 간의 MSE loss를 활용하여 content image의 학습을 진행한다.

CNN이 object recognition을 위해 학습된 경우 processing hierarchy에 주목하기 때문에 input image는 image 실제 content에매우 민감하게 반응한다. 따라서 네트워크의 higer layer는 high-level content를 포착하고 lower layer는 단순히 원본 이미지의 정확한 픽셀 값을 재생산 하는데에 집중한다. 여기서 저자들은 higher layer의 feautre responses를 content representation을 하는 데에 사용했다. 

 

2.2 Style representation

- 이미지의 style representation을 얻기 위해 저자들은 texture information을 포착하기 위해 고안된 feature space를 이용했다. 이 과정에서 gamma matrix를 사용하였으며 gamma matrix와 생성된 이미지의 gamma matrices 간의 MSE를 최소화 하는 방향으로 loss를 구성하였다. 

total loss에 대한 layer l의 기여
total style loss

 

2.3 Style transfer 

style transfer algorithm

최종적으로 원하는 것은 input image x에 content 정보를 가진 p와 style 정보를 가진 a를 합성하고자 하는 것이다. 이 과정에서 feature representations의 거리를 최소화 하였으며 loss function으로는 L-BFCS를 사용하였다. 

 

3. Results 

본 논문에서 가장 주목할만 한 성과는 CNN에서 content와 style의 representations이 상당히 잘 분리된다는 것이다. 따라서 가각을 독립적으로 조작함으로써 새로운 이미지를 생성할 수 있었다. 

 

3.1. Trade-off between content and style matching

- content와 style 이미지의 weigthing factor의 비율 α/β 에 따라 변화 양상이 달라지며 content 정보와 style 정보가 trade off 된다는 사실을 확인할 수 있다. 

 

 

 

 

 

 

 

 

3.2. Effect of different layers of the Convolutional Neural Network

- image 합성 과정에서 주요한 요인은 잘 맞는 layers를 선택하는 것이다. 연구 결과 시각적으로 더 뛰어난 이미지는 higer layers를 사용하는 것이 style representations에 잘 맞는 다는 사실을 알 수 있었다. content representations의 경우 lower layer가 구체적 픽셀 정보를 유지함으로써 더 좋은 결과를 보여주었다. 

 

 

 

 

 

 

 

 

 

 

 

3.3. Initialisation of gradient descent

-초기 input image를 white noise로 시작할 수 있지만 content image 혹은 style image를 사용할 수 있다.

다만 이 경우 정형화된 결과를 내보내기 때문에 white noise가 새로운 이미지를 보기에는 더욱 적합하다.

 

3.4. Photorealistic style transfer

-실제 사진에도 접목이 가능하다. 

 

4. Discussion

본 알고리즘은 high perceptual quality를 보여주지만 몇가지 기술적 결함을 가진다.

1) resolution

이미지 합성 속도가 이미지 해상도에 의존한다. 

2) low-level noise

대다수의 작업이 style과 content image를 확실하게 분리했는지와 설명할 수 있는지가 모호하다. 

그럼에도 neural system은 상당히 매혹적이기 때문에 추후 이를 더 잘 설명하기 위해 노력해야 한다. 

 

5. Reference

https://audrb1999.tistory.com/5

https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf

관련글 더보기

댓글 영역