사분위수(四分位數, Quartile)는 데이터를 크기 순서대로 나열했을 때, 전체 데이터를 4등분 한 위치에 있는 값들을 의미합니다.
- 제1사 분위수(Q1): 데이터를 오름차순으로 정렬했을 때 25% 위치에 있는 값으로, 데이터의 하위 25%를 대표하는 값입니다.
- 제2사 분위수(Q2): 데이터를 오름차순으로 정렬했을 때 50% 위치에 있는 값으로 중앙값(Median)과 같습니다. 데이터의 중앙에 위치한 값으로, 데이터의 중심 경향성을 파악하는 데 사용됩니다.
- 제3사 분위수(Q3): 데이터를 오름차순으로 정렬했을 때 75% 위치에 있는 값으로 데이터의 상위 25%를 대표하는 값입니다.
사분위수는 다음과 같은 특징을 가지고 있습니다.
- 데이터의 분포를 파악하는 데 유용합니다.
- 사분위수를 이용하여 데이터의 분포를 파악할 수 있습니다. 예를 들어 제1사 분위수와 제3사 분위수의 차이가 크면 데이터가 넓게 분포되어 있다는 것을 의미하고, 차이가 작으면 데이터가 밀집되어 있다는 것을 의미합니다.
- 데이터의 극단적인 값을 파악하는 데 유용합니다.
- 사분위수를 이용하여 데이터의 극단적인 값을 파악할 수 있습니다. 예를 들어 제1사 분위수와 제3사 분위수 사이에 데이터가 대부분 분포하고 있다면, 극단적인 값이 존재하지 않는다는 것을 의미합니다.
- 데이터의 대표값을 구하는 데 유용합니다.
- 중앙값과 함께 데이터의 대표값을 구하는 데 사용됩니다. 중앙값은 데이터의 중간값을 의미하며, 사분위수는 데이터의 분포를 고려한 대표값을 의미합니다.
사분위수는 통계학에서 널리 사용되는 개념 중 하나이며, 데이터 분석에 매우 유용합니다.
'코드잇 데이터 애널리스트 위클리 페이퍼' 카테고리의 다른 글
데이터 전처리는 어떻게 하나? (0) | 2024.07.04 |
---|---|
t-test란? (0) | 2024.07.04 |
p값 (p-value)는 무엇인가? (0) | 2024.06.24 |
제1종 오류와 제2종 오류란? (0) | 2024.06.24 |
기술통계와 추론통계란? 어떤 차이가 있나 (0) | 2024.06.19 |