Post

Marginal distribution

확률과 통계에서는 종종 여러 가지 변수를 한꺼번에 다루어야 할 때가 있습니다. 예를 들어, 날씨와 온도, 그리고 어떤 활동을 할 확률을 계산할 때 날씨와 온도를 함께 고려하는 것처럼요. 하지만 때로는 그 중 하나의 변수만 따로 떼어내서 살펴보고 싶을 때가 있습니다. 이런 상황에서 쓰이는 것이 바로 마지널 분포(한계 분포)입니다.


1. 마지널 분포란?

마지널 분포는 여러 변수를 함께 고려하지 않고, 특정 변수에만 집중한 확률 분포를 말합니다. 즉, 다른 변수를 “무시”하고 하나의 변수만을 분석하는 것입니다. 어떻게 보면, 시험 문제를 풀 때 다른 모든 요소를 잠깐 무시하고 특정 문제에만 집중하는 것과 비슷합니다.


2. 예시

어떤 학급에서 수학 시험을 본 학생들의 공부 시간과 시험 점수에 대해 데이터를 모았다고 해봅시다. 학생들이 몇 분 동안 공부했는지와 그 결과 몇 점을 받았는지를 함께 고려하는 것이 공동 분포입니다.

하지만, 이번에는 학생들이 몇 분 동안 공부했는지에만 관심이 있다고 해봅시다. 점수는 상관없이, 공부 시간에만 집중하려면 다른 변수인 점수는 무시해야겠죠? 이렇게 공부 시간에 대해서만 얻을 수 있는 확률 분포가 바로 마지널 분포입니다.

데이터

다음과 같은 데이터를 가지고 있다고 가정해봅시다:

공부 시간 (분)0-20분21-40분41-60분60분 이상
학생 수5명10명15명20명

이 표에서 ‘0-20분 공부한 학생이 몇 명인지’만 알고 싶다면, 다른 공부 시간 구간은 고려하지 않고, 0-20분에 해당하는 학생 수인 5명만 집중해서 보면 됩니다. 이처럼 특정 변수에만 집중해서 나머지를 무시하는 것이 바로 마지널 분포입니다.


3. 다변량 분포에서 마지널 분포를 구하는 방법

두 가지 변수 $X$와 $Y$가 있다고 해봅시다. 이때, $X$는 공부한 시간, $Y$는 시험 점수라고 할 수 있습니다. 이 두 변수는 함께 “공동 분포”를 가집니다. 하지만 우리는 공부한 시간 $X$에만 관심이 있으면, 점수 $Y$는 무시하고 $X$에 대한 마지널 분포를 구해야 합니다.

이산 확률 변수일 때

이산 확률 변수에서는 간단히 다른 변수에 대해 값을 모두 더해서 구할 수 있습니다. 예를 들어, $p(X, Y)$가 공부 시간과 점수의 공동 확률 분포라고 한다면, $X$에 대한 마지널 분포 $p(X)$는 다음과 같이 계산됩니다:

\[p(X) = \sum_{Y} p(X, Y)\]

이 수식은 모든 $Y$ 값에 대해 확률을 더하는 것을 의미합니다.

연속 확률 변수일 때

만약 변수가 연속적일 때는 적분을 사용합니다. 공동 확률 밀도 함수 $f(X, Y)$에서 $X$에 대한 마지널 확률 밀도 함수 $f_X(X)$는 다음과 같이 적분을 통해 구할 수 있습니다:

\[f_X(X) = \int f(X, Y) \, dY\]

이 수식은 변수 $Y$에 대해 적분하여 $X$에만 집중하는 마지널 분포를 얻는 방식입니다. 즉, 다른 변수를 “적분”을 통해 없애버리는 것입니다.


4. 결론

마지널 분포는 여러 변수 중에서 하나의 변수에만 집중하고 싶을 때 사용하는 개념입니다. 예시를 통해 보았듯이, 다른 변수를 무시하고 내가 관심 있는 변수만 남기면 되는 것이죠. 만약 변수가 연속적이라면 적분을 사용해 나머지 변수를 없애고 관심 변수를 구할 수 있습니다.

This post is licensed under CC BY 4.0 by the author.