[일반통계학] Ch 7. 이산자료의 분석 #1 (1/1)

[일반통계학] Ch 7. 이산자료의 분석 #1 (1/1)

2019. 6. 2. 17:14ㆍ통계학/2019-1 일반통계학

통계학 과목 기말고사 범위에 대해 공부한 내용을 블로그로 옮기기로 한다.

모비율의 추정, 가설 검정

사실 "이산자료의 분석"이라고 하면 뭘 어떻게 분석한다는 건지 감이 1도 오지 않는다. 결국 이 단원에서 하는 모든 짓들은 모비율을 몰라서 생기는 일이라고 보면 된다.

어떤 확률사건(실업, 후보 선호)이 있을 때, 모비율은 곧 실업률, 후보 지지율과 같이 모집단 내에서 특정 속성 "P"를 가진 개체의 비율을 의미한다. 문자로는 $p$ 라고 쓰고, 당연히 모비율의 추정량은 $\hat{p}$ 라고 쓴다.

그럼 $n$ 개의 개체가 있을 때 속성 "P"를 가진 개체의 개수 $X$ 는 자연히 $B(n,p)$ 를 따른다.

따라서 $\displaystyle \hat{p} = \frac{X}{n}$ 은 기댓값 $p$ , 분산 $\displaystyle \frac{p(1-p)}{n}$ 를 만족시키기 때문에 $p$ 에 대한 불편추정량이 된다.

$X \sim B(n,p) \approx N(np, np(1-p))$ 이므로, ( $np \ge 5, n(1-p) \ge 5$ ) $\displaystyle \frac{X-np}{\sqrt{np(1-p)}} \approx N(0,1)$ 이다.

분자 분모를 $n$ 으로 나누면 $\displaystyle \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \approx N(0,1)$ 을 얻고, 이로부터 모비율에 대한 신뢰구간을 얻고 가설검정을 할 수 있...나?

사실 그렇게 녹록지가 않다. $p$ 에 대한 $100(1-\alpha)\%$ 의 신뢰구간을 쓰면

$\left[ \hat{p} - z_{\alpha/2}\sqrt{ \frac{p(1-p)}{n} }, \hat{p} + z_{\alpha/2}\sqrt{ \frac{p(1-p)}{n} } \right]$

와 같이 나타나는데, $\displaystyle \sqrt{ \frac{p(1-p)}{n} }$ 가 $p$ 에 의존하기 때문에 저 식은 계산할 수 있는 식이 아니다. 그래서 다음과 같은 방법을 쓴다:

1. $p \leftarrow \hat{p}, p_{\text{empirical}}$ :

추정치 $\hat{p}$ 나 경험적으로 알아낸 $p_{\text{empirical}}$ 값이 $p$ 에 충분히 가깝다고 가정하고 다음과 같이 근사 신뢰구간을 채택한다. 다만 이 경우 신뢰구간이 얼마나 실제 신뢰구간에 가까운지 알 방법이 없다.

$\left[ \hat{p} - z_{\alpha/2}\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} }, \hat{p} + z_{\alpha/2}\sqrt{ \frac{\hat{p}(1-\hat{p})}{n} } \right]$

2. Worst - case analysis

$p$ 값이 얼마인지는 모르겠지만, 신뢰구간의 반지름 $\displaystyle z_{\alpha/2}\sqrt{ \frac{p(1-p)}{n} }$ 는 $p = \frac{1}{2}$ 일 때 최대 $\displaystyle \left( \frac{z_{\alpha/2}}{2\sqrt{n}} \right)$ 가 된다. 이를 오차한계라고 하고, 일반적으로 이 값을 $d$ 이하로 유지하기 위해 모아야 하는 최소의 표본 수 $n^{*}$ 를 계산한다.

$\frac{ z_{\alpha/2} }{ 2\sqrt{n} } \le d \implies n \ge \left( \frac{z_{\alpha/2}}{2d} \right)^{2}$

3. 가설 검정 : 고정된 모비율

1, 2와는 조금 맥락을 달리해서, 이제는 모비율 $p$ 의 값을 검정한다. 귀무가설 $H_{0}$ 가 $p = p_{0}$ 라고 하자. 대립가설은 $p > p_{0}$ , $p < p_{0}$ , $p \neq p_{0}$ 중 무엇이든 될 수 있다.

$p$ 에 대한 점추정량은 $\hat{p}$ 가 되고, 검정통계량은 다음과 같이 쓸 수 있다. 이때는 $p_{0}$ 값을 가설에서 설정하기 때문에, 이항분포의 정규근사 이외에 다른 근사가 필요하지 않다.

$\frac{\hat{p} - p_{0}}{ \sqrt{ \frac{ p_{0}(1-p_{0}) }{ n } } } \approx N(0,1)$

두 모비율의 비교

모비율의 비교는 모평균 비교랑 거의 비슷하다.

$X_{1} \sim B(n_{1}, p_{1})$ , $X_{2} \sim B(n_{2}, p_{2})$ 가 서로 독립이라고 하자.

그렇다면 두 모비율의 차 $\delta p := p_{1} - p_{2}$ 의 불편추정량은 $\delta \hat{p} := \hat{p}_{1} - \hat{p}_{2}$ 가 되고,

$p_{1}$ 과 $p_{2}$ 는 독립이므로 $\displaystyle V(\hat{p}_{1} - \hat{p}_{2}) = V(\hat{p}_{1}) + V(\hat{p}_{2}) = \frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}}$ 가 된다.

$\hat{p}_{1}, \hat{p}_{2}$ 모두 이항분포의 정규근사 조건 아래 정규분포를 따르기 때문에, $\displaystyle \delta\hat{p} \sim N(\delta p, \frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}})$ 를 만족한다.

따라서 $\displaystyle \frac{ \delta\hat{p} - \delta p }{ \sqrt{\frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}}} } \approx N(0,1)$ 가 성립하고, 이로부터 두 모비율의 차에 대한 신뢰구간을 (근사적으로) 얻을 수 있다. 앞서 이야기했던 방법 1 (근사신뢰구간), 2 (오차한계)를 모두 적용할 수 있지만 주로 1을 사용하는 듯하다. 생각해보면 모비율의 값도 아니고 차이를 정밀하게 알아내기 위해서 표본을 많이 만들 이유가 별로 없다..

가설 검정을 통한 두 모비율의 비교

이 방법으로는 귀무가설이 $H_{0} : p_{1} = p_{2} = p$ 이고, 대립가설이 $p_{1} > p_{2}$ , $p_{1} \neq p_{2}$ , $p_{1} < p_{2}$ 인 가설을 검정할 수 있다.

$p_{1} = p_{2}$ 일 때,

$\displaystyle \frac{ \delta\hat{p} - \delta p }{ \sqrt{\frac{{p}_{1}(1-{p}_{1})}{n_{1}} + \frac{{p}_{2}(1-{p}_{2})}{n_{2}}} } \approx N(0,1)$ 의 검정통계량은 아래와 같이 바꿔 쓸 수 있다.

$\frac{ \delta\hat{p} }{\sqrt{\frac{\hat{p}(1-\hat{p})}{n_{1}} + \frac{\hat{p}(1-\hat{p})}{n_{2}}}} \approx N(0,1)$

$\hat{p}$ 는 합동모비율추정량이라고 부르는데, 귀무가설 하에서 $X_{1} + X_{2} \sim B(n_{1} + n_{2}, p)$ 가 성립하므로 $\displaystyle \hat{p} := \frac{X_{1} + X_{2}}{n_{1} + n_{2}}$ 가 $p$ 의 추정량이 된다. $\hat{p}_{1}$ 이나 $\hat{p}_{2}$ 를 써도 되지 않냐고? $\hat{p}$ 가 더 분산이 작기 때문에 효율적인 추정량이다. 검정통계량을 잘 만들었으니 가설 검정은 어렵지 않다. 단, 여기서도 정규근사 조건 때문에 $n_{i}\hat{p} \ge 5, n_{i}(1-\hat{p}) \ge 5$ 가 성립해야 한다. 각각의 $n_{i}p_{i}, n_{i}(1-p_{i})$ 는 귀무가설 때문에 전부 $p$ 로 unify되었다. 따로 체크하지 않아도 된다.

범주형 자료의 동질성 검정

비교해야 할 모집단이 2개보다 많을 때 사용된다.

한 가지 예시로, $r$ 개 국가 사람들의 혈액형 분포가 동일한지 알고 싶다고 하자. 편의상 이 세상에는 $c$ 개의 혈액형이 존재한다고 가정한다.

귀무가설 $H_{0}$ 는 "모든 $i,j$ 에 대해서 $p_{ij} = p_{j}$ 가 성립한다"이다.

$p_{ij}$ 는 $i$ 번째 국가에서 혈액형 $j$ 를 가진 사람의 모비율이고, $p_{j}$ 는 모든 사람들 중 혈액형 $j$ 를 가진 사람의 모비율이다. 대립가설 $H_{1}$ 은 $\neg H_{0}$ 이며, 어떤 비율이 어떤 방향으로 엇나갔는지는 알 수 없다.

국가 $i$ 에서는 $n_{i}$ 명의 사람들을 표본으로 선정한다. 전체 표본의 수는 $\displaystyle N := \sum_{i=1}^{r} n_{i}$ 이다.
$i$ 번째 국가에서 혈액형 $j$ 를 가진 사람의 수를 관측도수 $O_{ij}$ 라고 한다. $(j=1,2,\ldots,c)$
$\displaystyle O_{.j} := \sum_{i=1}^{r} O_{ij}$ 는 전체 표본에서 혈액형 $j$ 를 가진 사람의 수다. $\displaystyle \hat{p}_{ij} = \frac{O_{ij}}{n_{i}}, \hat{p}_{j} = \frac{O_{.j}}{N}$ 임을 쉽게 알 수 있다.
(이상적인) 기대도수 $E_{ij}$ 는 귀무가설이 맞다면 실제로 $i$ 번째 국가에서 혈액형 $j$ 를 갖는 사람의 수를 의미한다. 즉 $E_{ij} = n_{i}p_{j}$ 가 되지만, 실제로 $p_{j}$ 를 모르기 때문에 $\displaystyle \hat{E}_{ij} := n_{i}\hat{p}_{j} = n_{i}\frac{O_{.j}}{N}$ 를 사용한다.
Pearson's chi-square test 로부터 다음의 검정통계량 $\chi_{0}^{2} \approx \chi^{2}((r-1)(c-1))$ 를 얻는다. 검정통계량 값이 $\chi^{2}_{\alpha}((r-1)(c-1))$ 보다 크다면 귀무가설을 기각하고, 작다면 귀무가설을 채택한다. 이항분포의 정규근사 조건에서 $\hat{E}_{ij} \ge 5$ 가 필요하다.

$\chi_{0}^{2} = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - \hat{E}_{ij})^{2}}{\hat{E}_{ij}}$

검정통계량의 독립성 검정

앞선 동질성 검정과 계산상으로는 완전히 동일한 과정이다. 차이는 자료 수집 과정에 있는데, 동질성 검정은 우리가 아는 $r$ 개의 모집단에서 자료를 추출하여 $c$ 개의 범주로 분류한다. 하지만 독립성 검정에서는 하나의 모집단에서 자료를 추출하여 $r$ 개의 범주1, $c$ 개의 범주2로 분류한다. 그 뒤로는 용어가 조금 바뀌는 것 말고 하등 차이가 없다.

어떤 공항에서 $N$ 명의 사람을 대상으로 국적과 혈액형을 조사했다고 하자.

귀무가설 $H_{0}$ 는 "모든 $i,j$ 에 대해서 $p_{ij} = p_{i.}p_{.j}$ 가 성립한다"이다.

$p_{ij}$ 는 국적이 $i$ 이고 혈액형 $j$ 인 사람의 모비율이고, $p_{i.}$ 는 모든 사람들 중 국적 $i$ 를 가진 사람의 모비율, $p_{.j}$ 는 모든 사람들 중 혈액형 $j$ 를 가진 사람의 모비율이다. 대립가설 $H_{1}$ 은 $\neg H_{0}$ 이며, 동질성 검정과 마찬가지로 어떤 비율이 어떤 방향으로 엇나갔는지는 알 수 없다.

$i$ 번째 국가에서 혈액형 $j$ 를 가진 사람의 수를 관측도수 $O_{ij}$ 라고 한다. $(j=1,2,\ldots,c)$
관측도수 $O_{ij}$ 는 전체 표본에서 국적 $i$ , 혈액형 $j$ 를 가진 사람의 수다. $\displaystyle \hat{p}_{ij} = \frac{O_{ij}}{N}$ 가 성립한다.
$O_{i.}$ 는 전체 표본에서 국적이 $i$ 인 사람의 수이다. $\displaystyle\hat{p}_{i.} = \frac{O_{i.}}{N}$ 이다. 마찬가지로 $O_{.j}$ 도 알 수 있다.
(이상적인) 기대도수 $E_{ij}$ 는 귀무가설이 맞다면(즉, 국적과 혈액형이 독립이라면) 실제로 $i$ 번째 국가에서 혈액형 $j$ 를 갖는 사람의 수를 의미한다. 즉 $E_{ij} = Np_{i.}p_{.j}$ 가 되지만 실제로 $p_{i.},p_{.j}$ 를 모르기 때문에 $\displaystyle \hat{E}_{ij} := N\hat{p}_{i.}\hat{p}_{.j} = \frac{O_{i.}O_{.j}}{N}$ 를 사용한다.
Pearson's chi-square test 로부터 다음의 검정통계량 $\chi_{0}^{2} \approx \chi^{2}((r-1)(c-1))$ 를 얻는다. 검정통계량 값이 $\chi^{2}_{\alpha}((r-1)(c-1))$ 보다 크다면 귀무가설을 기각하고, 작다면 귀무가설을 채택한다. 이항분포의 정규근사 조건에서 $\hat{E}_{ij} \ge 5$ 가 필요하다.

$\chi_{0}^{2} = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - \hat{E}_{ij})^{2}}{\hat{E}_{ij}}$

분포의 적합도 검정 (Goodness of fit test)

이 경우는 앞의 두 경우보다 훨씬 쉽다. 이미 각 범주에 대한 이론적인 비율 $p_{1},p_{2},\ldots,p_{c}$ 가 알려져 있고, 새로 측정한 자료 $\hat{p}_{1},\hat{p}_{2},\ldots,\hat{p}_{c}$ 가 이 분포와 같은지 보는 것이다.

관측도수 $O_{i}$ 는 자료로부터 얻고, 기대도수 $E_{i} = Np_{i}$ 이다. 카이제곱 통계량은

$\chi_{0}^{2} = \sum_{i=1}^{c} \frac{(O_{i} - E_{i})^{2}}{E_{i}} \approx \chi^{2}((c-1))$

로부터 얻는다. 당연히 $E_{i} \ge 5$ 가 필요하다.

Comment

동질성 검정 등에서, $r = c = 2$ 인 경우 t-test(두 이항모집단의 모비율 비교)와 chi-square test는 동등하다. 정확히는 $\chi_{0}^{2} = (t^{*})^{2}$ 가 되기 때문에 두 모비율의 크기까지 비교해주는 t-test가 더 좋다.

실제로 $r > 2$ 인 경우에도 $\displaystyle \begin{pmatrix} r \\ 2 \end{pmatrix}$ 번 t-test를 시행해서 동질성 검증을 구할 수도 있다. 하지만 이 경우 제 1종 오류가 테스트의 횟수만큼 누적되기 때문에 매우 lousy해진다. 그래서 chi-squared test를 사용한다.

Chi-squared test는 링크에 달린 rkm0959의 자료가 굉장히 좋다. 시간이 날 때 별도로 다뤄 볼 의향은 있다.

저작자표시

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

레프네 약방

레프네 약방

태그

최근글

댓글

공지사항

아카이브