"Sangho Lee"님의 유튜브 영상을 보고 정리한 내용입니다. 링크는 하단에 있습니다.
1. 도입
아래의 그림과 같은 상자에 검은 구슬과 흰 구슬이 섞여있고, 총 개수는 100개이다. 이 상자에서 10개의 구슬을 추출했을 때 검은 구슬과 흰 구슬은 각각 4개 6개였다. 그렇다면 상자에는 몇 개의 검은 구슬이 있었을까?

물론 상자의 구슬을 모두 세어보면 검은 구슬이 몇 개 있는지 알 수 있을 것이다. 그러나 상자 안의 구슬이 백 개가 아니라 만 개라고 한다면 이렇게 직접 세는 방법은 아주 비효율적이다. 이러한 방법 대신 우리는 상자에서 표본을 추출하고 그 표본을 바탕으로 상자 내 검은 구슬의 개수를 짐작해볼 수 있다. 이를테면 상자에서 구슬 10개를 추출하고 그 결과 검은 구슬이 4개 흰 구슬이 6개가 나왔다면, 상자 내의 검은 구슬이 40개일 것이라고 '추정'하는 것이다. 그러나 과연 이런식으로 추정하는 것이 정확하다고 할 수 있을까? 최대우도추정법은 이러한 질문에 답을 할 수 있게 한다.
2. X∼(10,p) 일 때 p 는?
먼저 항아리 내 검은 구슬의 비율을 p라 한다면, 상자 내 구슬의 구성상태는 아래와 같이 표현할 수 있다. 이때 p 는 '표본 10개에서 검은 구슬을 뽑을 확률'을 의미하는 것이 아니라, '전체 구슬 100개 가 들어있는 상자에서 검은 구슬을 뽑을 확률'을 의미한다. 즉 p 는 추정량이 아닌 모수이다.
p=검은 구슬의 수 전체 구슬의 수 1−p=흰 구슬의 수전체 구슬의 수
그렇다면 10번 추출에서 차례대로 [검, 흰, 검, 흰, 흰, 흰, 검, 흰, 검, 흰] 구슬을 뽑는 사건(event)를 E1 이라 할 때, 이 사건의 확률을 다음과 같이 표현할 수 있다. 표기의 편의를 위해 추출에서 검은 구슬이 나오는 결과(outcome)을 B 라 하고, 흰 구슬을 나오는 결과를 W 라 하자.
P(E1|p)=P(B W B W W W B W B W|p)
각 시행은 독립이기 때문에 위 확률은 아래와 같이 각 확률의 곱으로 표현이 가능하다.
=P(B|p)×P(W|p)×⋯P(B|p)×P(W|p)=p×(1−p)⋯ (1−p)=p4(1−p)6
그러나 구슬 10개를 추출할 때 항상 [검, 흰, 검, 흰, 흰, 흰, 검, 흰, 검, 흰] 차례로 뽑는다는 보장이 없다. 다시 말해 10번 시행에서 가능한 사건은 E1 외에도 더 있을 수 있다. 조금 더 정확하게 말하자면 가능한 모든 사건은 10C4 개이다. 이때 이러한 모든 사건들을 E 라 하자. 그렇다면 10번 추출에서 검은 구슬이 4번 흰 구슬이 6번 나올 확률은 다음과 같이 표현할 수 있다. 참고
P(E|p)=10C4 p4(1−p)6
이렇게 관측된 사건들의 확률 P(E|p) 를 최대화하는 p 를 찾는 것이 최대우도추정법이다. 이때의 추정량을 ˆp 이라 하고 수식으로 나타내면 아래와 같다.
ˆp=arg maxp 10C4 p4(1−p)6
최대우도추정법은 '목격한(발생한) 사건은 자주 일어나는 사건이다'라는 발상에 기초한다. 다시 말해 구슬을 10번 추출했는데 4개의 검은 구슬과 6개의 흰 구슬이 나온 것은 그 사건이 발생할 확률이 높기 때문이지, 내가 우연치 않게 드문 사건을 목격한 것은 아니라는 것이다. 이에 따라 목격한 사건의 확률을 가장 크게 하는 p 를 찾고, 이를 추정량 ˆp 이라 한다.
이러한 정의에 따라 ˆp 를 계산해보자. 이때 계산의 편의를 위해 P(E|p) 에 로그를 취한다.
f(p)=logP(E|p)=log{10C4 p4(1−p)6}=log10C4+4logp+6log(1−p)
양변을 p 에 대해 미분하면,
f′(p)=4p−61−p
이다. p 는 도함수 f′(p)=0 에서 최댓값을 갖는다. 즉,
4p−61−p=0
이를 계산하면 p 는 아래와 같다.
⇒4p=61−p⇒p=410
최대우도추정법의 정의에 따르면 주어진 사건의 확률을 최대로 하는 p 값은 추정량 ˆp 이기 때문에,
ˆp=610
참고자료