[Paper Review] A Deep Generative Approach to Conditional Sampling
1. IntroductionPermalink
-
통계학과 머신러닝의 주된 주제는
와 사이의 관계를 규명하는 것. -
이를
가 주어질 때의 의 값을 파악하는 조건부 분포(conditional distribtuion)의 문제로 이해할 수 있다. - 본 논문에서는 조건부 분포 추정을 위해 a nonparametric generative approach to sampling from a conditional distribution을 제시한다.
- Generative conditional distribution sampler (GCDS)
가 어떤 reference distribution에서 추출된 random variable이라 할 때, GCDS는 를 추정한다.
1.1. Generative Adversarial NetworkPermalink
- GCDS의 훈련 방법은 GAN과 비슷하다. Conditional density의 functional form을 직접 추정하는 대신, GCDS는 Conditional sampler를 추정한다. 논문에 따르면, 조건부 분포를 추정할 때 연속형 조건의 경우 모든 조건에 대해서 추정을 하는 것은 현실적으로 힘들다. 대신 각 조건에 대해서 noise를 부여하여, noise의 reference distribution와 조건 X를 반응변수 Y에 매핑시키는 conditional sampler를 추정하는 것이 더 효율적이다.
- 이러한 conditional sample 추정은 Noise outsourcing lemma에 의해 정당화된다. 이에 따르면 Conditional density estimation과 generalised nonparametric regression 문제를 동일시 할 수 있는데, 이 generalized nonparametric regression 문제가 바로 conditional sampler 추정을 의미한다.
- 예를 들어, 어떤 sampler
를 생각하면, noise 에 따라 형성되는 sampler이며 동시에 standard nonparametric regression 문제임을 확인할 수 있다.
cGAN |
---|
GCDS |
1.2. pros of GCDSPermalink
1. No restirction on the dimensionality of the response variable
- 독립변수와 반응변수가 모두 고차원 이어도 추정이 가능하다.
- Image 생성과 같이 고차원 데이터도 처리할 수 있다.
2. Both continuous and discrete type variables can be dealt with
3. Easy to obtain estimates of the summary measures
- reference distribution 에서
를 뽑아내 sampling을 할 수 있으므로, Monte Carlo를 통해 summary statistics를 쉽게 추정할 수 있다.
4. Consistency
- 생성된 샘플들은 타겟 조건부 분포에 weakly converge 한다.
1.3. Related literaturePermalink
1. Smoothing method
- include kernel smoothing and local polynomials
- esimate the joint density of
and marginal density of , then get the ratio
2. Nonparametric regression
3. Nearest neighbor
- 저자는 위의 introduction 이후, 크게 세가지 스텝으로 새로운 방법론을 보이고 증명한다.
- 2절에서는 Noise outrsourcing lemma를 통해 nonparametric density estimation이 conditional sampler estimation으로 대체될 수 있고, 항상 그러한 conditional sampler가 존재할 수 있음을 보인다.
- 3절에서는 Genrative adversarial 방법론을 모델 추정에 적용하기 위해, f-divergence를 바탕으로 generator와 discriminator를 가진 Objective function을 근사한다.
- 4절에서는 추정된 generator가 실제의 conditional density에 점근적으로 근사(asymptotically convegent)함을 보인다.
- 이를 통해, GCDS를 통해 추정된 sample가 목표로 하는 conditional density의 추정에 사용할 수 있음을 이론적으로 보이고 있다. 그리고, 이를 바탕으로 마지막 5절에서는 실증 분석을 통해 GCDS가 실제로 활용될 가능성을 보이고 있다.
2. Generative Representation of Conditional DistributionPermalink
Notation
, is predictor , response variable - Predictor
can contain both continuous and categorical components is a random variable independent of with a known distribution to be the standard normal for a given
2.1. Goal of the model
- 분포
가 조건부 분포 와 같아지는 를 찿는 것이 GCDS의 목표이다.
- 위 조건을 만족하는
를 찾을 수 있다면, reference distribution에서 를 추출한 후 를 통해 를 얻을 수 있다.
2.2. Existence of
의 존재성은 noise-outsourcing lemma를 통해 증명할 수 있다.
Lemma 2.1. (Noise Outsourcing Lemma)
를 만족하는
- 가정에 의해,
와 는 독립이므로, (2) 를 만족하는 는 (3)도 만족한다.
proof
저자가 참고한 원문 논문에서는Basic noise outsourcing lemma에 따르면,
마찬가지로, 만일
따라서 이 둘을 결합 시,
2.3. Generalized regression problem
- Noise outsourcing lemma가 의미하는 것은 conditional distribution estimation 문제를 generalized regression 문제로 이해할 수 있다는 점이다.
- (1) 를 다르게 이해하면 다음과 같다.
-
즉, error가 noise
에서 나왔다고 이해하면 이는 일반적인 generalized regression 문제와 동일해진다. -
예를 들여,
, 으로 이해하면, (3)는 전형적인 nonparametric regression 문제와 동일해진다.
2.4. a Conditional distribution, not a Unconditional distribution
-
Conditional distribution을 찾는것은 unconditional distribution을 찾는 것과는 명백하게 다른 문제이다.
-
GAN을 예시로 들자면, discrete condition이라면 각 condition에 대해서 distribution을 찾음으로써 conditional distribution을 추정할 수 있다. (cGAN, goodfellow et al, 2014)
-
그러나 이는
의 함수로 만들어지는 conditional distribution을 직접 추정하는 것과는 다른 문제로, 실제로 cGAN은 continuous type random variable에 대해서는 conditional distribution 추정이 불가능하다. -
대신, 저자는 Lemma 2.2.를 통해
의 Joint distribution 추정으로 conditional distribution을 추정하고자 한다.
Lemma 2.2.
- 이는
라는 사실에서 쉽게 알 수 있다. - 따라서, (4)를 만족하는
를 찾는다면, 이는 우리가 추정하고자 하는 conditional distribution이며, Monte Carlo 기법 등을 통해 의 summary measures 역시 추정할 수 있다.
3. Distribution Matching EstimationPermalink
3.1. f-divergence and its variational formPermalink
Lemma 3.1. Let
where the equality holds if and only if
proof)
definition) Fenchel conjugate of f3.2. Distribution matich estimation via f-divergencePermalink
Now to construct objective function, consider the KL divergence below.
Here, the authors suggest to use
Since the conjugacy of
First equality holds because
Therefore, we can summarise the objective function approximated to :
, Which means that
4. Weak Convergence of Conditional SamplerPermalink
4.1. NotationPermalink
- 증명을 시작하기에 앞서, 몇가지 노테이션을 정리한다.
,라 할 때, Lemma3.1. **에 의해 **sup을 만족하는
- 따라서, Generator가 영향을 주지 않는 부분을 제하면
가 성립하며, Lemma 2.2. 에 의해 이를 극소화하는
- Empirically, 이는 다음과 같이 표현한다.
4.2. AssumptionsPermalink
(A1) The target conditional genearator
(A2) For any
- 위의 두가지 가정은 conditional density estimation에서 많이 사용되는 가정이며, 현실적으로 가정하기에 무리는 없다.
- 추가적으로, 훈련에 사용되는 신경망
에 대해 다음의 가정을 추가한다.
depth
: number of hidden layers width
: for is width of th layer size
: is the total number of parameters in the network. bound
: is the bound of neural network
(N1) The network parameters of
(N2) The network parameters of
- 이들 가정 역시 충분히 현실적인 가정인데, 표본 수가 무한하게 많아진다면 그만큼 뉴럴네트워크가 커져야하며, 동시에 표본의 증가속도보다는 뉴럴네트워크의 크기 확장속도가 작아야 한다.
4.3. Total Variation norm convergencePermalink
Theorem 4.1. 위의 조건들이 만족될 때, 다음이 성립한다.
- 해당 부분의 proof가 길기 때문에, proof를 여러 부분으로 나누어서 설명.
proof1
Pinsker's theorem과- Pinkser's theorem if
따라서, 어떠한 generator
이때,
more lemmas for proof
Lemma B.4. ifproof) This result follows from Corollary 3.2.6 and inequality 4.3.1 in De la Pena and Gine (2012) with
Lemma B.5. Let
proof can be found on Theorem 4.3. in Shen et al.(2020)
proof of error3
Lemma B.1.proof) 가정 A1에 의해
, 이때,
또한
따라서,
는
proof of error2
Lemma B.2.proof) 다음과 같은 노테이션을 정한다.
-
-
-
-
-
-
-
-
이제, symmetrization technique과 law of iterated expectation을 이용하면 다음을 보일 수 있다.
어떤
또한, 가정 A1, A2에 의해
proof of error1
Lemma B.3.따라서, continuity에 의해,
5. experimentsPermalink
5.1. Simulation studiesPermalink
For the finite sample performance of GCDS, the authors compared the model with 3 previous methods, including the nearest neighbor kernel conditional density estimation (NNKCDE, Dalmasso et al. (2020)), the conditional kernel density estimation (CKDE, implemented in the R package np, Hall et al. (2004)), and the basis expansion method FlexCode (Izbicki et al., 2017)).
Mean and SD are estimated by Monte Carlo for GCDS. For other methods, numerical integration is used for calculation. For GCDS, conditional density is estimated using the samples generated from GCDS with kernel smoothing.
We see that GCDS yields smaller MSEs for estimation conditional mean and SD in most cases. Density plots show that GCDS yields better conditional density estimates than others. Especially, DCGS shows that it can follow multi modal densities well.
5.2. MNIST handwrittened digitPermalink
Another viewpoint for DCGS is that it can handle high-dimensional data problems as well. MNIST data is example. The images are stored in 28
Generating images from label
Like a standard conditional GAN, the authors input labels
It is easy to see that generated image is similar to real image. Also, for each label, generated images are all different because of noise input. However, it is not especially different from conditional GAN method.
Reconstructing the missing part of an image
Special part of DCGS is that it can adopt ‘continuous condition’, which is not possible for standard GAN. Reconstructing the missing part of an image is an example.
Reconstructed images given partial image in MNIST dataset. The first column in each panel consists of the true images, the other columns give the constructed images. In the left panel, the left lower 1/4 of the image is given; in the middle panel, the left 1/2 of the image is given; in the right panel, 3/4 of the image is given.
Here, image is conditions, which are high-dimensional conditional data. It is not available for standard GAN method. Also, when 1/4 of image is given, It does not show good reconstruction quality. However, as more part of image is given, reconstruction quality increases. Therefore, it shows that GCDS can take high-dimensional data, with continuous or discrete columns, could be handle for both predictors and responses.
Leave a comment