기술통계와 추론통계는 통계학에서 매우 중요한 두 가지 분야로, 데이터를 이해하고 분석하는 데 필수적인 도구입니다.
기술통계 (Descriptive Statistics)
목적 기술통계의 주요 목적은 데이터를 요약하고 묘사하여, 데이터의 전체적인 경향과 분포를 이해하기 쉽게 만드는 것입니다. 이를 통해 데이터의 특성과 패턴을 파악할 수 있습니다.
주요 방법
- 중심 경향 측정 (Measures of Central Tendency)
- 평균 (Mean): 데이터 값의 총합을 데이터의 개수로 나눈 값. 가장 흔히 사용되는 중심 경향 측정 방법입니다.
- 중앙값 (Median): 데이터를 크기 순으로 정렬했을 때 중앙에 위치한 값. 데이터에 극단적인 값(outlier)이 있을 때 평균보다 유용합니다.
- 최빈값 (Mode): 가장 자주 나타나는 값. 데이터 분포에서 가장 빈번하게 관찰되는 값을 나타냅니다.
- 산포도 측정 (Measures of Dispersion)
- 범위 (Range): 데이터의 최대값과 최소값의 차이. 데이터가 얼마나 퍼져 있는지를 나타냅니다.
- 분산 (Variance): 각 데이터 값이 평균에서 얼마나 떨어져 있는지의 제곱평균. 데이터의 변동성을 나타냅니다.
- 표준편차 (Standard Deviation): 분산의 제곱근. 분산보다 해석이 쉬워 자주 사용됩니다.
- 도수 분포표 (Frequency Distribution)
- 데이터 값이 각 구간에 얼마나 자주 나타나는지를 표로 나타낸 것. 데이터의 분포와 빈도를 파악할 수 있습니다.
- 그래프와 차트
- 히스토그램 (Histogram): 연속형 데이터의 분포를 나타내는 그래프. 데이터를 구간으로 나누고 각 구간의 빈도를 막대로 표현합니다.
- 막대 그래프 (Bar Chart): 범주형 데이터의 빈도를 나타내는 그래프. 각 범주의 빈도를 막대로 표현합니다.
- 상자 그림 (Box Plot): 데이터의 중심 경향과 변동성을 시각적으로 표현. 중앙값, 사분위수, 최대/최소값, 이상치(outlier)를 한눈에 볼 수 있습니다.
사용 사례
- 학생들의 시험 점수 분석: 평균, 중앙값, 표준편차를 계산하여 점수 분포를 이해하고, 히스토그램으로 시각화.
- 시장 조사 데이터 요약: 설문 응답 데이터를 도수 분포표와 막대 그래프로 표현하여 고객 선호도를 파악.
추론통계 (Inferential Statistics)
목적 추론통계의 주요 목적은 표본 데이터를 사용하여 모집단에 대한 결론을 도출하고, 가설을 검정하는 것입니다. 이를 통해 전체 모집단에 대해 예측하거나 추론할 수 있습니다.
주요 방법
- 추정 (Estimation)
- 점 추정 (Point Estimation): 모집단의 특정 파라미터(예: 평균)를 단일 값으로 추정. 예를 들어, 표본 평균을 사용하여 모집단 평균을 추정합니다.
- 구간 추정 (Interval Estimation): 모집단 파라미터가 특정 구간 내에 있을 확률을 제시. 예를 들어, 신뢰 구간(confidence interval)을 사용하여 모집단 평균이 특정 범위 내에 있을 확률을 제시합니다.
- 가설 검정 (Hypothesis Testing)
- 귀무가설 (Null Hypothesis, H0): 모집단에 대해 기존에 알려진 가정이나, 변화가 없다는 가설입니다. 예를 들어, "새로운 교육 방법이 기존 방법과 차이가 없다".
- 대립가설 (Alternative Hypothesis, H1): 귀무가설에 반하는 주장입니다. 예를 들어, "새로운 교육 방법이 기존 방법보다 효과적이다".
- p-값 (p-value): 귀무가설이 참일 때, 관찰된 데이터가 나올 확률. p-값이 작을수록 귀무가설을 기각하고 대립가설을 채택할 가능성이 높아집니다.
- 검정통계량 (Test Statistic): 표본 데이터를 바탕으로 계산되는 값으로, 이를 통해 가설 검정을 수행합니다.
- 회귀 분석 (Regression Analysis)
- 선형 회귀 (Linear Regression): 두 변수 간의 직선 관계를 모델링. 예를 들어, 광고비와 매출 간의 관계를 분석합니다.
- 다중 회귀 (Multiple Regression): 여러 변수 간의 관계를 모델링. 예를 들어, 여러 마케팅 전략이 매출에 미치는 영향을 분석합니다.
사용 사례
- 의학 연구: 신약의 효과를 검증하기 위해 실험군과 대조군의 평균 차이를 t-검정으로 검정.
- 시장 분석: 고객 설문 데이터를 바탕으로 구매 의도와 실제 구매 간의 관계를 회귀 분석.
상세 비교
- 목적의 차이
- 기술통계: 데이터를 요약하고 설명하는 데 중점을 두고 데이터의 전체적인 특성을 이해하는 데 사용됩니다.
- 추론통계: 표본 데이터를 사용하여 모집단에 대한 결론을 도출하고, 가설을 검정하는 데 중점을 두고 전체 모집단에 대한 추론과 예측을 수행합니다.
- 데이터 처리 방식
- 기술통계: 수집된 데이터 자체를 분석하고 시각화하여 패턴과 경향을 파악합니다.
- 추론통계: 표본 데이터를 통해 모집단의 특성을 추정하고, 통계적 검정을 통해 결론을 도출합니다.
- 결론 도출 방식
- 기술통계: 데이터의 현황을 파악하고, 데이터를 요약하여 시각적으로 표현합니다.
- 추론통계: 통계적 검정을 통해 가설을 검증하고, 표본 데이터를 기반으로 모집단에 대한 추론을 제공합니다.
사례 비교
- 기술통계: 한 학교의 모든 학생의 성적을 분석하여 평균, 중앙값, 표준편차를 계산하고, 히스토그램으로 점수 분포를 시각화합니다.
- 추론통계: 특정 교육 방법의 효과를 검증하기 위해, 일부 학생을 표본으로 선택하여 평균 성적 차이를 t-검정으로 분석하고, 이를 통해 전체 학생에 대한 결론을 도출합니다.
'코드잇 데이터 애널리스트 위클리 페이퍼' 카테고리의 다른 글
데이터 전처리는 어떻게 하나? (0) | 2024.07.04 |
---|---|
t-test란? (0) | 2024.07.04 |
p값 (p-value)는 무엇인가? (0) | 2024.06.24 |
제1종 오류와 제2종 오류란? (0) | 2024.06.24 |
사분위수란? (0) | 2024.06.19 |