moonai

DDPM 논문 이해하기 (1편): Diffusion 첫걸음

[PDF][Code] 최근 인공지능(AI) 분야에서 생성 모델의 발전이 눈부십니다. 특히 생성적 적대 신경망(GAN), 변분 오토인코더(VAE), 오토리그레시브 모델 같은 모델들은 이미지를 생성하는 데 탁월한 성과를 보여주었고, 이를 통해 우리는 AI가 만들어내는 멋진 이미지와 음악 샘플들을 접할 수 있었습니다. 이런 모델들이 점차 복잡한 데이터를 ...

잠재 변수 모델을 더 쉽게: ELBO의 역할과 유도 과정

현대의 인공지능 모델은 점점 더 복잡해지고, 우리가 다루는 데이터도 그만큼 다양해지고 있습니다. 그중 잠재 변수 모델은 보이지 않는 정보를 활용해 데이터를 더 잘 설명하려고 합니다. 하지만, 이 복잡한 계산을 효율적으로 처리하기 위해서는 무엇이 필요할까요? 바로 ELBO라는 도구가 그 답입니다. ELBO는 복잡한 확률 계산을 간단하게 풀어주고, 모델이...

전기 신호에서 에너지와 파워

[혁펜하임 강의] 에너지와 파워는 물리학과 공학에서 중요한 개념입니다. 전구가 빛을 내거나, 음악 신호가 스피커를 통해 소리로 전달될 때 모두 에너지가 사용됩니다. 이번 글에서는 에너지와 파워가 어떻게 정의되고, 그 공식을 왜 사용하는지 이해하기 쉽게 설명하겠습니다. 1. 에너지란 무엇인가? 에너지는 물체가 일을 할 수 있는 능력을 의미합니다...

복소수와 오일러 공식 - 테일러 급수로 풀어보는 간단한 이해

[혁펜하임 강의] 1. 테일러 급수와 맥클로린 시리즈 먼저, 테일러 급수와 맥클로린 시리즈가 무엇인지 알아보겠습니다. 테일러 급수란? 어떤 복잡한 함수도 특정 점 주변에서 다항식으로 근사할 수 있습니다. 이때 사용되는 방법이 바로 테일러 급수입니다. 예를 들어, $f(x)$ 라는 함수가 있을 때, 이 함수를 아래와 같은 무한한 다항식으로...

Marginal distribution

확률과 통계에서는 종종 여러 가지 변수를 한꺼번에 다루어야 할 때가 있습니다. 예를 들어, 날씨와 온도, 그리고 어떤 활동을 할 확률을 계산할 때 날씨와 온도를 함께 고려하는 것처럼요. 하지만 때로는 그 중 하나의 변수만 따로 떼어내서 살펴보고 싶을 때가 있습니다. 이런 상황에서 쓰이는 것이 바로 마지널 분포(한계 분포)입니다. 1. 마지널 분포...

교차 엔트로피와 KL 발산 - 질문으로 이해하기

머신러닝을 공부하다 보면 자주 등장하는 두 개념이 있습니다. 바로 교차 엔트로피(Cross Entropy)와 쿨백-라이블러(KL) 발산입니다. 그런데 이 두 개념이 서로 비슷해 보이면서도, 실제로는 어떻게 다르고, 각각 어떤 상황에서 사용되는지 헷갈릴 수 있습니다. 그래서 이번 글에서는 의문을 가졌던 부분에 대해서 질의하며 교차 엔트로피와 KL 발산을...

Improving Speech Prosody of Audiobook Text-to-Speech Synthesis with Acoustic and Textual Contexts

[arxiv] [demo] 오디오북을 들을 때, 각 캐릭터의 목소리가 상황에 맞게 전달되고, 장면의 분위기에 맞춰 목소리 톤이 자연스럽게 바뀌는 것을 상상해보고는 합니다. 이는 오디오북 애호가라면 누구나 바라는 장면입니다. 이제 텍스트-음성 변환(TTS) 기술의 발전 덕분에 이러한 꿈이 현실에 한 걸음 더 가까워지고 있습니다. 이번 글에서는 음향 문...