수학/확률과 통계(기초)

통계학 - 기술통계학: 대푯값

Dlise 2022. 9. 20. 21:57

대푯값

대푯값은 자료 분포의 중심 위치를 나타내는 값으로, 산술평균, 중앙값, 절사평균, 최빈값 등이 있다.

 

산술평균

산술평균은 우리가 일반적으로 생각하는 평균으로, 모평균과 표본평균으로 구분된다.

모평균(μ)은 전체 자료에 대한 평균이며,

 $$ {\mu} = \frac{1}{N}\sum_{i=1}^{N}x_{i}  $$

 

표본평균(x̄)은 전체 자료 중 표본에 대한 평균이다. 

$$ \overline{x} = \frac{1}{n}\sum_{i=1}^{n}x_{i} $$

 

 

산술평균의 성질

1. 산술평균에 대한 편차의 합은 0이다.
$$ \sum_{i=1}^{n}(x_{i} - \overline{x}) = 0 $$
2. 산술평균은 편차의 제곱의 합을 최소로 한다. 즉, 산술평균에 대한 편차의 제곱의 합은 임의의 수에 대한 편차의 제곱의 합보다 크지 않다. 
$$ \sum_{i=1}^{n}(x_{i} - \overline{x})^2 \leq \sum_{i=1}^{n}(x_{i} - a)^2  (단, a는 상수) $$ 
3. 산술평균은 주어진 자료를 모두 사용하므로 정보 손실이 없다. 
4. 표본들의 평균인 표본평균은 모집단을 추론할 때 유용하게 사용된다.
5. 산술평균은 양적자료에 대해서만 구할 수 있으며, 극단값에 매우 민감하다.

 

 

중앙값(중위수)

자료를 작은 값부터 크기순으로 배열했을 때, 정가운데 위치한 값을 중앙값(Me)이라고 한다.

중앙값은 자료의 수가 홀수일 때와 짝수일 때 구하는 방법이 다른데, 

홀수일 때는 \(  \frac{n+1}{2} \) 번째 값을, 

짝수일 때는 \( \frac{n}{2} \)번째 값과 \(  \frac{n}{2}+1 \) 번째 값의 평균을 구한다.

중앙값은 편차의 절댓값의 합을 최소로 하는 성질이 있다.

 

 

최빈값

구한 자료 중 가장 많이 나타나는 값을 최빈값(Mo)이라고 한다.

최빈값은 항상 하나만 존재하는 것은 아니다.

 

 

표본평균, 중앙값, 최빈값 사이의 관계

표본평균, 중앙값, 최빈값 사이엔 피어슨의 실험 공식이 성립한다. 

$$ \overline{x} - Mo = 3(\overline{x} - Me) $$

 

또, 도수분포곡선의 모양에 따라 표본평균, 중앙값, 최빈값 사이의 관계를 알 수 있다.

1. 도수분포가 완전히 대칭인 경우

$$ \overline{x} = Me = Mo $$

 

2. 도수분포가 오른쪽으로 치우친 경우

$$ \overline{x} < Me < Mo $$

 

3. 도수분포가 왼쪽으로 치우친 경우

$$ \overline{x} > Me > Mo $$

 

 

백분위수와 사분위수

제100p 백분위수는 변량 Xn개의 자료를 작은 값부터 크기순으로 나열했을 때,

0 p ≤ 1인 p에 대하여 전체 자료를 100p%와 100(1-p)%로 나눈 값을 말한다.

 

특히, 제25, 50, 75 백분위수를 사분위수라고 하며, 

각각 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)라고 한다.

 

제100p 백분위수 구하는 방법

1. 자료를 작은 값부터 크기순으로 배열한다.
2. 자료 수 np를 곱하여 np에 따라 자료 값을 구한다.
    2-1. np가 정수인 경우, np번째로 큰 자료와 (np + 1)번째로 큰 자료의 평균을 구한다.
    2-2. np가 실수인 경우, np의 정수 부분에 + 1을 한 후, 해당 자료를 택한다.

멀리 떨어진 극단값에 매우 민감하다.

 

 

절사평균

극단값을 제외하고 구한 평균이다.

얼마나 제외할 것인지 절사 비율을 결정해야 한다.