통계학 - 기술통계학: 대푯값
대푯값
대푯값은 자료 분포의 중심 위치를 나타내는 값으로, 산술평균, 중앙값, 절사평균, 최빈값 등이 있다.
산술평균
산술평균은 우리가 일반적으로 생각하는 평균으로, 모평균과 표본평균으로 구분된다.
모평균(μ)은 전체 자료에 대한 평균이며,
$$ {\mu} = \frac{1}{N}\sum_{i=1}^{N}x_{i} $$
표본평균(x̄)은 전체 자료 중 표본에 대한 평균이다.
$$ \overline{x} = \frac{1}{n}\sum_{i=1}^{n}x_{i} $$
산술평균의 성질
1. 산술평균에 대한 편차의 합은 0이다.
$$ \sum_{i=1}^{n}(x_{i} - \overline{x}) = 0 $$
2. 산술평균은 편차의 제곱의 합을 최소로 한다. 즉, 산술평균에 대한 편차의 제곱의 합은 임의의 수에 대한 편차의 제곱의 합보다 크지 않다.
$$ \sum_{i=1}^{n}(x_{i} - \overline{x})^2 \leq \sum_{i=1}^{n}(x_{i} - a)^2 (단, a는 상수) $$
3. 산술평균은 주어진 자료를 모두 사용하므로 정보 손실이 없다.
4. 표본들의 평균인 표본평균은 모집단을 추론할 때 유용하게 사용된다.
5. 산술평균은 양적자료에 대해서만 구할 수 있으며, 극단값에 매우 민감하다.
중앙값(중위수)
자료를 작은 값부터 크기순으로 배열했을 때, 정가운데 위치한 값을 중앙값(Me)이라고 한다.
중앙값은 자료의 수가 홀수일 때와 짝수일 때 구하는 방법이 다른데,
홀수일 때는 \( \frac{n+1}{2} \) 번째 값을,
짝수일 때는 \( \frac{n}{2} \)번째 값과 \( \frac{n}{2}+1 \) 번째 값의 평균을 구한다.
중앙값은 편차의 절댓값의 합을 최소로 하는 성질이 있다.
최빈값
구한 자료 중 가장 많이 나타나는 값을 최빈값(Mo)이라고 한다.
최빈값은 항상 하나만 존재하는 것은 아니다.
표본평균, 중앙값, 최빈값 사이의 관계
표본평균, 중앙값, 최빈값 사이엔 피어슨의 실험 공식이 성립한다.
$$ \overline{x} - Mo = 3(\overline{x} - Me) $$
또, 도수분포곡선의 모양에 따라 표본평균, 중앙값, 최빈값 사이의 관계를 알 수 있다.
1. 도수분포가 완전히 대칭인 경우
$$ \overline{x} = Me = Mo $$
2. 도수분포가 오른쪽으로 치우친 경우
$$ \overline{x} < Me < Mo $$
3. 도수분포가 왼쪽으로 치우친 경우
$$ \overline{x} > Me > Mo $$
백분위수와 사분위수
제100p 백분위수는 변량 X의 n개의 자료를 작은 값부터 크기순으로 나열했을 때,
0 ≤ p ≤ 1인 p에 대하여 전체 자료를 100p%와 100(1-p)%로 나눈 값을 말한다.
특히, 제25, 50, 75 백분위수를 사분위수라고 하며,
각각 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)라고 한다.
제100p 백분위수 구하는 방법
1. 자료를 작은 값부터 크기순으로 배열한다.
2. 자료 수 n에 p를 곱하여 np에 따라 자료 값을 구한다.
2-1. np가 정수인 경우, np번째로 큰 자료와 (np + 1)번째로 큰 자료의 평균을 구한다.
2-2. np가 실수인 경우, np의 정수 부분에 + 1을 한 후, 해당 자료를 택한다.
멀리 떨어진 극단값에 매우 민감하다.
절사평균
극단값을 제외하고 구한 평균이다.
얼마나 제외할 것인지 절사 비율을 결정해야 한다.