산포도
자료가 흩어진 정도를 산포도라고 한다.
예를 들어 아래와 같이 A, B 그룹이 있다고 할 때,
그룹 | 값 | 총합 | 평균 |
A | 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 | 100 | 55 |
B | 55, 55, 55, 55, 55, 55, 55, 55, 55, 55 | 100 | 55 |
두 그룹은 총합과 평균이 같지만 최솟값과 최댓값의 차이가 매우 크다.
이처럼 평균, 중앙값 등으로는 알 수 없는 자료의 성격을 파악하기 위해 필요한 것이 산포도이다.
범위
범위(R)는 자료의 최댓값과 최솟값의 차이로, 가장 쉽게 구할 수 있는 산포도이다.
$$ R = x_{max} - x_{min} $$
범위는 자료의 두 극단값의 차이만을 나타내므로 산포를 나타내기엔 불충분하다는 문제점이 있다.
사분위수 범위
사분위수 범위(IQR)는 범위의 문제점을 보완한 산포도이다. 제3사분위수와 제1사분위수의 차이이다.
$$ IQR = Q_{3} - Q_{1} $$
분산과 표준편차
분산은 편차의 제곱의 평균이다.
모분산과 표본분산으로 구분되며,
모분산은 \( \sigma ^{2} = \frac{1}{N} \sum_{i=1}^{N}(x_{i} - \mu)^{2} \) (간편식: \( \sigma ^{2} = \frac{1}{N} \sum_{i=1}^{N}x_{i}^{2} - \mu^{2} \))
평균분산은 \( S ^{2} = \frac{1}{n-1} \sum_{i=1}^{n}(x_{i} - \overline{x})^{2} \) 이다. (간편식: \( S ^{2} = \frac{1}{n-1}( \sum_{i=1}^{n}x_{i}^{2} - n\overline{x}^{2}) \))
(각각의 자료의 개수 N, n)
표준편차는 분산의 양의 제곱근이다.
모표준편차( \( \sigma = \sqrt{ \frac{1}{N} \sum_{i=1}^{N}(x_{i} - \mu)^{2}} \) )와
표본표준편차 ( \( S = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}} \) )로 구분되며,
X의 자료가 도수분포표로 주어질 때의 표준편차는
$$ S = \sqrt{\frac{1}{n-1} \sum_{i=1}^{k}f_{i}(x_{i} - \overline{x})^{2}}, \sum_{i=1}^{k}f_{i} = n $$
이다. (k: 계급의 수, fi: i번째 계급에 속한 도수)
분산은 자료의 값을 제곱하여 얻으므로 값이 큰 반면, 표준편차는 제곱근을 한 것이므로 값이 더 작다.
따라서 표준편차가 분산에 비해 다루기 쉬우므로 표준편차를 보다 많이 사용한다.
변동계수
변동계수(CV, coefficient of variation)는 위의 척도와 달리 평균을 중심으로 상대적으로 흩어진 정도를 측정한다.
$$ CV = \frac{표준편차}{평균} \times 100(\%) $$
변동계수가 크다는 것은 상대적으로 변동 폭이 크다는 것이다.
일반적으로 백분율로 나타내며, 변동계수의 제곱은 상대분산이라고 한다.
자료의 5점 요약 표시
5점 요약 표시는 중앙값, 제1사분위수, 제3사분위수, 최댓값, 최솟값을 한 번에 나타내는 방법이다. 자료를 요약할 때 유용하게 사용한다.
[xmin, Q1, Me, Q3, xmax]
왜도와 첨도
왜도(비대칭도)는 분포의 비대칭의 정도를 표시하는 척도이다.
$$ \alpha = \frac{\mu_{3}}{S^{3}} $$
세제곱이므로 음수가 나올 수 있다.
α = 0 이면 대칭분포
α > 0 이면 왼쪽으로 치우친 분포
α < 0 이면 오른쪽으로 치우친 분포
이다.
첨도는 뾰족함의 정도를 나타내는 척도이다.
$$ \beta = \frac{\mu_{4}}{S^{4}} $$
네제곱이므로 음수가 나올 수 없다.
β = 3 이면 뾰족한 정도가 표준정규분포와 같다.
β > 3 이면 표준정규분포보다 정점이 높고 뾰족하다.
β < 3 이면 표준정규분포보다 정점이 낮고 완만하다.
'수학 > 확률과 통계(기초)' 카테고리의 다른 글
통계학 - 기술통계학: 상자그림 (1) | 2022.09.30 |
---|---|
통계학 - 기술통계학: 대푯값 (1) | 2022.09.20 |
통계학 - 기술통계학: 자료 정리 방법 (0) | 2022.09.18 |
통계학 - 정의 및 기본 용어 정리 (1) | 2022.09.18 |