DDPM 논문 이해하기 (3편): Loss 수식의 이해
[PDF] [Code] 지난 글(2편, diffusion의 forward와 reverse process에 대한 이해)에 이어서 음의 로그 가능도에 대한 변분 하한을 최적화하는 과정을 설명하려 합니다. 이 과정은 Denoising Diffusion Probabilistic Models (DDPM)과 같은 모델의 학습 과정의 핵심이기 때문에 정확하게 파...
[PDF] [Code] 지난 글(2편, diffusion의 forward와 reverse process에 대한 이해)에 이어서 음의 로그 가능도에 대한 변분 하한을 최적화하는 과정을 설명하려 합니다. 이 과정은 Denoising Diffusion Probabilistic Models (DDPM)과 같은 모델의 학습 과정의 핵심이기 때문에 정확하게 파...
[PDF] [Code] 지난 1편에서는 DDPM에 대한 전반적인 개요와 모델의 한계에 대해 설명했습니다. 이번 2편에서는 핵심적인 과정인 노이즈 추가를 다루는 forward process와 노이즈 제거를 다루는 reverse process에 대해 수식과 함께 자세히 알아보겠습니다. 1. Forward Process (확산 과정) DDPM의 f...
[PDF][Code] 최근 인공지능(AI) 분야에서 생성 모델의 발전이 눈부십니다. 특히 생성적 적대 신경망(GAN), 변분 오토인코더(VAE), 오토리그레시브 모델 같은 모델들은 이미지를 생성하는 데 탁월한 성과를 보여주었고, 이를 통해 우리는 AI가 만들어내는 멋진 이미지와 음악 샘플들을 접할 수 있었습니다. 이런 모델들이 점차 복잡한 데이터를 ...
현대의 인공지능 모델은 점점 더 복잡해지고, 우리가 다루는 데이터도 그만큼 다양해지고 있습니다. 그중 잠재 변수 모델은 보이지 않는 정보를 활용해 데이터를 더 잘 설명하려고 합니다. 하지만, 이 복잡한 계산을 효율적으로 처리하기 위해서는 무엇이 필요할까요? 바로 ELBO라는 도구가 그 답입니다. ELBO는 복잡한 확률 계산을 간단하게 풀어주고, 모델이...
[혁펜하임 강의] 에너지와 파워는 물리학과 공학에서 중요한 개념입니다. 전구가 빛을 내거나, 음악 신호가 스피커를 통해 소리로 전달될 때 모두 에너지가 사용됩니다. 이번 글에서는 에너지와 파워가 어떻게 정의되고, 그 공식을 왜 사용하는지 이해하기 쉽게 설명하겠습니다. 1. 에너지란 무엇인가? 에너지는 물체가 일을 할 수 있는 능력을 의미합니다...
[혁펜하임 강의] 1. 테일러 급수와 맥클로린 시리즈 먼저, 테일러 급수와 맥클로린 시리즈가 무엇인지 알아보겠습니다. 테일러 급수란? 어떤 복잡한 함수도 특정 점 주변에서 다항식으로 근사할 수 있습니다. 이때 사용되는 방법이 바로 테일러 급수입니다. 예를 들어, $f(x)$ 라는 함수가 있을 때, 이 함수를 아래와 같은 무한한 다항식으로...
확률과 통계에서는 종종 여러 가지 변수를 한꺼번에 다루어야 할 때가 있습니다. 예를 들어, 날씨와 온도, 그리고 어떤 활동을 할 확률을 계산할 때 날씨와 온도를 함께 고려하는 것처럼요. 하지만 때로는 그 중 하나의 변수만 따로 떼어내서 살펴보고 싶을 때가 있습니다. 이런 상황에서 쓰이는 것이 바로 마지널 분포(한계 분포)입니다. 1. 마지널 분포...
머신러닝을 공부하다 보면 자주 등장하는 두 개념이 있습니다. 바로 교차 엔트로피(Cross Entropy)와 쿨백-라이블러(KL) 발산입니다. 그런데 이 두 개념이 서로 비슷해 보이면서도, 실제로는 어떻게 다르고, 각각 어떤 상황에서 사용되는지 헷갈릴 수 있습니다. 그래서 이번 글에서는 의문을 가졌던 부분에 대해서 질의하며 교차 엔트로피와 KL 발산을...
[arxiv] [demo] 오디오북을 들을 때, 각 캐릭터의 목소리가 상황에 맞게 전달되고, 장면의 분위기에 맞춰 목소리 톤이 자연스럽게 바뀌는 것을 상상해보고는 합니다. 이는 오디오북 애호가라면 누구나 바라는 장면입니다. 이제 텍스트-음성 변환(TTS) 기술의 발전 덕분에 이러한 꿈이 현실에 한 걸음 더 가까워지고 있습니다. 이번 글에서는 음향 문...
Tacotron 2는 두 가지 주요 구성 요소로 이루어진 음성 합성 시스템입니다. 바로 인코더(Encoder)와 디코더(Decoder)로 이루어진 특징 예측 네트워크와, 멜 스펙트로그램을 기반으로 최종 음성을 생성하는 WaveNet 보코더입니다. 이 중에서도 인코더와 디코더의 구조가 Tacotron 2의 핵심입니다. 이 섹션에서는 이 두 모델의 동작 ...