분자 분모를 n으로 나누면 np(1−p)p^−p≈N(0,1)을 얻고, 이로부터 모비율에 대한 신뢰구간을 얻고 가설검정을 할 수 있...나?
사실 그렇게 녹록지가 않다. p에 대한 100(1−α)%의 신뢰구간을 쓰면
[p^−zα/2np(1−p),p^+zα/2np(1−p)]
와 같이 나타나는데, np(1−p)가p에 의존하기 때문에 저 식은 계산할 수 있는 식이 아니다. 그래서 다음과 같은 방법을 쓴다:
1. p←p^,pempirical :
추정치 p^나 경험적으로 알아낸 pempirical값이 p에 충분히 가깝다고 가정하고 다음과 같이 근사 신뢰구간을 채택한다. 다만 이 경우 신뢰구간이 얼마나 실제 신뢰구간에 가까운지 알 방법이 없다.
[p^−zα/2np^(1−p^),p^+zα/2np^(1−p^)]
2. Worst - case analysis
p값이 얼마인지는 모르겠지만, 신뢰구간의 반지름 zα/2np(1−p)는 p=21일 때 최대(2nzα/2)가 된다. 이를 오차한계라고 하고, 일반적으로 이 값을 d 이하로 유지하기 위해 모아야 하는 최소의 표본 수 n∗를 계산한다.
2nzα/2≤d⟹n≥(2dzα/2)2
3. 가설 검정 : 고정된 모비율
1, 2와는 조금 맥락을 달리해서, 이제는 모비율 p의 값을 검정한다. 귀무가설 H0가 p=p0라고 하자. 대립가설은 p>p0, p<p0, p=p0중 무엇이든 될 수 있다.
p에 대한 점추정량은 p^가 되고, 검정통계량은 다음과 같이 쓸 수 있다. 이때는 p0값을 가설에서 설정하기 때문에, 이항분포의 정규근사 이외에 다른 근사가 필요하지 않다.
np0(1−p0)p^−p0≈N(0,1)
두 모비율의 비교
모비율의 비교는 모평균 비교랑 거의 비슷하다.
X1∼B(n1,p1), X2∼B(n2,p2)가 서로 독립이라고 하자.
그렇다면 두 모비율의 차 δp:=p1−p2의 불편추정량은 δp^:=p^1−p^2가 되고,
p1과 p2는 독립이므로 V(p^1−p^2)=V(p^1)+V(p^2)=n1p1(1−p1)+n2p2(1−p2)가 된다.
p^1,p^2 모두 이항분포의 정규근사 조건 아래 정규분포를 따르기 때문에, δp^∼N(δp,n1p1(1−p1)+n2p2(1−p2))를 만족한다.
따라서 n1p1(1−p1)+n2p2(1−p2)δp^−δp≈N(0,1)가 성립하고, 이로부터 두 모비율의 차에 대한 신뢰구간을 (근사적으로) 얻을 수 있다. 앞서 이야기했던 방법 1 (근사신뢰구간), 2 (오차한계)를 모두 적용할 수 있지만 주로 1을 사용하는 듯하다. 생각해보면 모비율의 값도 아니고 차이를 정밀하게 알아내기 위해서 표본을 많이 만들 이유가 별로 없다..
가설 검정을 통한 두 모비율의 비교
이 방법으로는 귀무가설이 H0:p1=p2=p이고, 대립가설이 p1>p2, p1=p2, p1<p2인 가설을 검정할 수 있다.
p1=p2일 때,
n1p1(1−p1)+n2p2(1−p2)δp^−δp≈N(0,1)의 검정통계량은 아래와 같이 바꿔 쓸 수 있다.
n1p^(1−p^)+n2p^(1−p^)δp^≈N(0,1)
p^는 합동모비율추정량이라고 부르는데, 귀무가설 하에서 X1+X2∼B(n1+n2,p)가 성립하므로 p^:=n1+n2X1+X2가 p의 추정량이 된다. p^1이나 p^2를 써도 되지 않냐고? p^가 더 분산이 작기 때문에 효율적인 추정량이다. 검정통계량을 잘 만들었으니 가설 검정은 어렵지 않다. 단, 여기서도 정규근사 조건 때문에 nip^≥5,ni(1−p^)≥5가 성립해야 한다. 각각의 nipi,ni(1−pi)는 귀무가설 때문에 전부 p로 unify되었다. 따로 체크하지 않아도 된다.
범주형 자료의 동질성 검정
비교해야 할 모집단이 2개보다 많을 때 사용된다.
한 가지 예시로, r개 국가 사람들의 혈액형 분포가 동일한지 알고 싶다고 하자. 편의상 이 세상에는 c개의 혈액형이 존재한다고 가정한다.
귀무가설 H0는 "모든 i,j에 대해서 pij=pj가 성립한다"이다.
pij는 i번째 국가에서 혈액형 j를 가진 사람의 모비율이고, pj는 모든 사람들 중 혈액형 j를 가진 사람의 모비율이다. 대립가설 H1은 ¬H0이며, 어떤 비율이 어떤 방향으로 엇나갔는지는 알 수 없다.
국가 i에서는 ni명의 사람들을 표본으로 선정한다. 전체 표본의 수는 N:=i=1∑rni이다.
i번째 국가에서 혈액형 j를 가진 사람의 수를 관측도수Oij라고 한다. (j=1,2,…,c)
O.j:=i=1∑rOij는 전체 표본에서 혈액형 j를 가진 사람의 수다. p^ij=niOij,p^j=NO.j임을 쉽게 알 수 있다.
(이상적인) 기대도수 Eij는 귀무가설이 맞다면 실제로 i번째 국가에서 혈액형 j를 갖는 사람의 수를 의미한다. 즉 Eij=nipj가 되지만, 실제로 pj를 모르기 때문에 E^ij:=nip^j=niNO.j를 사용한다.
Pearson's chi-square test 로부터 다음의 검정통계량 χ02≈χ2((r−1)(c−1))를 얻는다. 검정통계량 값이 χα2((r−1)(c−1))보다 크다면 귀무가설을 기각하고, 작다면 귀무가설을 채택한다. 이항분포의 정규근사 조건에서 E^ij≥5가 필요하다.
χ02=i=1∑rj=1∑cE^ij(Oij−E^ij)2
검정통계량의 독립성 검정
앞선 동질성 검정과 계산상으로는 완전히 동일한 과정이다. 차이는 자료 수집 과정에 있는데, 동질성 검정은 우리가 아는 r개의 모집단에서 자료를 추출하여 c개의 범주로 분류한다. 하지만 독립성 검정에서는 하나의 모집단에서 자료를 추출하여 r개의 범주1, c개의 범주2로 분류한다. 그 뒤로는 용어가 조금 바뀌는 것 말고 하등 차이가 없다.
어떤 공항에서 N명의 사람을 대상으로 국적과 혈액형을 조사했다고 하자.
귀무가설 H0는 "모든 i,j에 대해서 pij=pi.p.j가 성립한다"이다.
pij는 국적이 i이고 혈액형 j인 사람의 모비율이고, pi.는 모든 사람들 중 국적 i를 가진 사람의 모비율, p.j는 모든 사람들 중 혈액형 j를 가진 사람의 모비율이다. 대립가설 H1은 ¬H0이며, 동질성 검정과 마찬가지로 어떤 비율이 어떤 방향으로 엇나갔는지는 알 수 없다.
i번째 국가에서 혈액형 j를 가진 사람의 수를관측도수Oij라고 한다. (j=1,2,…,c)
관측도수 Oij는 전체 표본에서 국적 i, 혈액형 j를 가진 사람의 수다. p^ij=NOij가 성립한다.
Oi.는 전체 표본에서 국적이 i인 사람의 수이다. p^i.=NOi.이다. 마찬가지로 O.j도 알 수 있다.
(이상적인) 기대도수 Eij는 귀무가설이 맞다면(즉, 국적과 혈액형이 독립이라면) 실제로 i번째 국가에서 혈액형 j를 갖는 사람의 수를 의미한다. 즉 Eij=Npi.p.j가 되지만 실제로 pi.,p.j를 모르기 때문에 E^ij:=Np^i.p^.j=NOi.O.j를 사용한다.
Pearson's chi-square test 로부터 다음의 검정통계량 χ02≈χ2((r−1)(c−1))를 얻는다. 검정통계량 값이 χα2((r−1)(c−1))보다크다면귀무가설을 기각하고, 작다면 귀무가설을 채택한다. 이항분포의 정규근사 조건에서 E^ij≥5가 필요하다.
χ02=i=1∑rj=1∑cE^ij(Oij−E^ij)2
분포의 적합도 검정 (Goodness of fit test)
이 경우는 앞의 두 경우보다 훨씬 쉽다. 이미 각 범주에 대한 이론적인 비율p1,p2,…,pc가 알려져 있고, 새로 측정한 자료 p^1,p^2,…,p^c가 이 분포와 같은지 보는 것이다.
관측도수 Oi는 자료로부터 얻고, 기대도수 Ei=Npi이다. 카이제곱 통계량은
χ02=i=1∑cEi(Oi−Ei)2≈χ2((c−1))
로부터 얻는다. 당연히 Ei≥5가 필요하다.
Comment
동질성 검정 등에서, r=c=2인 경우 t-test(두 이항모집단의 모비율 비교)와 chi-square test는 동등하다. 정확히는 χ02=(t∗)2가 되기 때문에 두 모비율의 크기까지 비교해주는 t-test가 더 좋다.
실제로 r>2인 경우에도 (r2)번 t-test를 시행해서 동질성 검증을 구할 수도 있다. 하지만 이 경우 제 1종 오류가 테스트의 횟수만큼 누적되기 때문에 매우 lousy해진다. 그래서 chi-squared test를 사용한다.
Chi-squared test는 링크에 달린 rkm0959의 자료가 굉장히 좋다. 시간이 날 때 별도로 다뤄 볼 의향은 있다.