본문 바로가기

인공지능/컴퓨터비전

Deep Convolutional Generative Adversarial Nets(DCGANs)


< 목차 >

  1. 용어정의
  2. 요약
  3. 학습방법
  4. 결과분석
    1. Memorization
    2. Vector Arithmetic
  5. 결론
  6. 출처

1. 용어정의

  • 피드백 후 작성예정입니다.

2. 요약

초기 GAN 모델은 학습 시 재현성부분에서 한계가 있다. 즉, GAN에서는 생성모델인 Generator가 "매번 같은 학습방식에서도 비슷한 수준의 성능을 가진 데이터를 생성해낼 수 있느냐"에 대한 부분을 보장할 수 없었다. 이 부분과 연관하여 학습과정에서 오히려 실제 데이터의 분포를 따라가지 못하고 학습이 전혀되지 않는 Model Collapsing 현상도 존재하였다.

 

DCGAN에서는 이러한 한계를 개선하고자 하였는데, 이름에서 알다시피 Fully Connected Layer를 Convolution Layer 로 대체하였고, Batch Normalization(BN)을 사용하여 생성되는 데이터셋의 분포를 실제데이터 분포에 따르도록 제어하여 모델의 안정성을 개선하였다.  

 

또한, Generative model을 통한 Vector Arithmetic 이 가능하다는 점과, Latent Space 의 Feature 의 연산으로 새로운 이미지데이터도 생성할 수 있음을 보여주었다.


3. 학습방법

우선 DCGAN의 논문에서는 "Extensive research" 를 통해 구조적으로 안정된 모델을 제안하고 있다고 나온다. (말그대로 학습에 사용가능한 모든 기능들과 파라미터들을 조합해서 엄청난 실험을 했다고 이야기하는 듯하다.) 

 

 

학습 특이사항으로서는, Convolutional Neural Network(CNN)에서 주로 사용되었던 Pooling layer를 사용하지 않고, Discriminative model은 Strided convolution을 사용하여 Layer 당 Receptive Field 의 크기를 효율적으로 증가시켰다.

 

또한, Generative model은 Fractional-strieded convolution만을 사용하였고, 각 레이어에 Batch normalization(BN)을 사용하였으며, Discriminative model의 input layer와 Generative model의 Output layer에만 BN을 적용하지 않았다. 그리고 Discriminative model의 activation으로 output에 tanh를 사용, 나머지 레이어는 ReLU 를 사용하였고, Generative model 의 activation으로 Leaky ReLU 를 사용하였다.


4. 결과분석

4-1. Memorization

아래 결과로 보았을 때, Generative model이 학습데이터에 overfitting 되지않고 Latent space (z)에서 완만한 변화가 보여지는 것을 확인할 수 있다.

 

4-2. Vector Arithmetic

모델의 필터가 이미지에서 유의미한 특성을 학습하고 이로 인해 Latent space(z)에 존재하는 Feature 벡터간의 연산이 가능하다. 즉, 아래와 같이 특징 벡터간의 더하기 혹은 빼기를 통해서 새로운 이미지 생성 및 Interpolation 추정에 대한 가능성을 보여주었다.

 

새로운 이미지 생성 가능: 선글라스 낀 남자 - 남자 + 여자 = 선글라스 낀 여자 

 

이미지 추정 가능: 왼쪽 얼굴과 오른쪽 얼굴에 대한 벡터 사이 interpolation하여 얼굴 전체에 대한 이미지 추정 


5. 결론

Face Dataset 데이터셋을 통해 간단히 구현해본 결과이다. 비록 구현이 목적이어서 모델학습을 제대로 시켜보진 않았지만, 얼핏보면 아주 그럴듯해 보인다. (하지만 실제 이미지와 비교해보면 단번에 Fake / Real 을 구분할 수 있다.)

 

50 에포크까지 학습과정에서 모니터링한 생성이미지들 (5, 20, 50 에포크 순서로 정렬)

 

50 에포크 학습한 생성이미지 비교 (왼쪽: Real, 오른쪽: Fake) 


6. 출처


 

728x90
반응형