"Sangho Lee"님의 유튜브 영상을 보고 정리한 내용입니다. 링크는 하단에 있습니다.
1. 도입
아래의 그림과 같은 상자에 검은 구슬과 흰 구슬이 섞여있고, 총 개수는 100개이다. 이 상자에서 10개의 구슬을 추출했을 때 검은 구슬과 흰 구슬은 각각 4개 6개였다. 그렇다면 상자에는 몇 개의 검은 구슬이 있었을까?
물론 상자의 구슬을 모두 세어보면 검은 구슬이 몇 개 있는지 알 수 있을 것이다. 그러나 상자 안의 구슬이 백 개가 아니라 만 개라고 한다면 이렇게 직접 세는 방법은 아주 비효율적이다. 이러한 방법 대신 우리는 상자에서 표본을 추출하고 그 표본을 바탕으로 상자 내 검은 구슬의 개수를 짐작해볼 수 있다. 이를테면 상자에서 구슬 10개를 추출하고 그 결과 검은 구슬이 4개 흰 구슬이 6개가 나왔다면, 상자 내의 검은 구슬이 40개일 것이라고 '추정'하는 것이다. 그러나 과연 이런식으로 추정하는 것이 정확하다고 할 수 있을까? 최대우도추정법은 이러한 질문에 답을 할 수 있게 한다.
2. $X \sim (10, p)$ 일 때 $p$ 는?
먼저 항아리 내 검은 구슬의 비율을 $p$라 한다면, 상자 내 구슬의 구성상태는 아래와 같이 표현할 수 있다. 이때 $p$ 는 '표본 10개에서 검은 구슬을 뽑을 확률'을 의미하는 것이 아니라, '전체 구슬 100개 가 들어있는 상자에서 검은 구슬을 뽑을 확률'을 의미한다. 즉 $p$ 는 추정량이 아닌 모수이다.
$$\begin{align} p &= \frac{ \text{검은 구슬의 수} }{ \text{ 전체 구슬의 수 } } \\\\ 1 - p &= \frac{ \text{흰 구슬의 수} }{ \text{전체 구슬의 수} } \end{align}$$
그렇다면 10번 추출에서 차례대로 [검, 흰, 검, 흰, 흰, 흰, 검, 흰, 검, 흰] 구슬을 뽑는 사건(event)를 $E_1$ 이라 할 때, 이 사건의 확률을 다음과 같이 표현할 수 있다. 표기의 편의를 위해 추출에서 검은 구슬이 나오는 결과(outcome)을 $B$ 라 하고, 흰 구슬을 나오는 결과를 $W$ 라 하자.
$$\begin{align} P(E_1|p) &= P( B \ W \ B \ W \ W \ W \ B \ W \ B \ W | p)\end{align}$$
각 시행은 독립이기 때문에 위 확률은 아래와 같이 각 확률의 곱으로 표현이 가능하다.
$$\begin{align} &= P(B|p) \times P(W|p) \times \cdots P(B|p) \times P(W|p) \\\\ &= p \times (1 - p) \cdots \ (1 - p) \\\\ & = p^4 (1 - p)^6 \end{align}$$
그러나 구슬 10개를 추출할 때 항상 [검, 흰, 검, 흰, 흰, 흰, 검, 흰, 검, 흰] 차례로 뽑는다는 보장이 없다. 다시 말해 10번 시행에서 가능한 사건은 $E_1$ 외에도 더 있을 수 있다. 조금 더 정확하게 말하자면 가능한 모든 사건은 $_{10}C_4$ 개이다. 이때 이러한 모든 사건들을 $E$ 라 하자. 그렇다면 10번 추출에서 검은 구슬이 4번 흰 구슬이 6번 나올 확률은 다음과 같이 표현할 수 있다. 참고
$$P(E|p) = _{10}C_4 \ p^4 (1 - p)^6$$
이렇게 관측된 사건들의 확률 $P(E|p)$ 를 최대화하는 $p$ 를 찾는 것이 최대우도추정법이다. 이때의 추정량을 $\hat{p}$ 이라 하고 수식으로 나타내면 아래와 같다.
$$\widehat{p} = \text{$arg$ $max_p$} \ _{10}C_4 \ p^4 (1 - p)^6 $$
최대우도추정법은 '목격한(발생한) 사건은 자주 일어나는 사건이다'라는 발상에 기초한다. 다시 말해 구슬을 10번 추출했는데 4개의 검은 구슬과 6개의 흰 구슬이 나온 것은 그 사건이 발생할 확률이 높기 때문이지, 내가 우연치 않게 드문 사건을 목격한 것은 아니라는 것이다. 이에 따라 목격한 사건의 확률을 가장 크게 하는 $p$ 를 찾고, 이를 추정량 $\hat{p}$ 이라 한다.
이러한 정의에 따라 $\hat{p}$ 를 계산해보자. 이때 계산의 편의를 위해 $P(E|p)$ 에 로그를 취한다.
$$\begin{align} f(p) &= \log{P(E|p)} \\\\ &= \log{\{ _{10}C_4 \ p^4 (1 - p)^6 \}} \\\\ &= \log{_{10}C_4} + 4\log{p} + 6\log{(1 - p)} \end{align}$$
양변을 $p$ 에 대해 미분하면,
$$f'(p) = \frac{4}{p} - \frac{6}{1 - p}$$
이다. $p$ 는 도함수 $f'(p) = 0$ 에서 최댓값을 갖는다. 즉,
$$\frac{4}{p} - \frac{6}{1 - p} = 0$$
이를 계산하면 $p$ 는 아래와 같다.
$$\begin{align} &\Rightarrow \frac{4}{p} = \frac{6}{1 - p} \\\\ &\Rightarrow p = \frac{4}{10} \end{align}$$
최대우도추정법의 정의에 따르면 주어진 사건의 확률을 최대로 하는 $p$ 값은 추정량 $\hat{p}$ 이기 때문에,
$$\hat{p} = \frac{6}{10}$$
참고자료