BackHypothesis Testing and Regression Analysis: Core Concepts and Applications
Study Guide - Smart Notes
Tailored notes based on your materials, expanded with key definitions, examples, and context.
가설검정 (Hypothesis Testing)
가설검정의 개념
가설검정은 모집단에 대한 주장을 통계적으로 검증하는 과정으로, 표본 데이터를 바탕으로 귀무가설의 기각 여부를 결정합니다. 이는 통계적 의사결정의 핵심 절차입니다.
귀무가설 (Null Hypothesis, H0): 기존까지의 주장 또는 믿음, 변화가 없음을 의미합니다.
대립가설 (Alternative Hypothesis, H1): 새로운 주장, 변화 또는 효과가 있음을 의미합니다.

가설의 형태와 검정의 유형
가설의 형태에 따라 검정의 유형이 달라집니다. 이는 검정의 방향성과 관련이 있습니다.
양측검정 (Two-tailed test): H0: θ = θ0 vs. H1: θ ≠ θ0
좌측검정 (Left-tailed test): H0: θ ≥ θ0 vs. H1: θ < θ0
우측검정 (Right-tailed test): H0: θ ≤ θ0 vs. H1: θ > θ0

가설검정 용어
검정통계량 (Test Statistic): 표본에서 계산되어 귀무가설의 기각 여부를 판단하는 값. 예: t값, Z값, F값 등
유의수준 (Significance Level, α): 제1종 오류(귀무가설이 참일 때 잘못 기각할 확률)의 최대 허용치. 일반적으로 0.01, 0.05, 0.10 등이 사용됨.

P값에 의한 결정 규칙
P값은 귀무가설이 참일 때, 관측된 통계량보다 극단적인 값이 나올 확률입니다. P값이 유의수준보다 작으면 귀무가설을 기각합니다.
만일 p값 < α 이면 H0를 기각
만일 p값 > α 이면 H0를 채택
P값 계산 방법(예시):
양측검정:
좌측검정:
우측검정:
여기서

단일 모집단의 가설검정: 모평균
모평균에 대한 가설검정은 모집단의 분산(σ²)을 아는 경우와 모르는 경우로 나뉩니다.
모분산을 알거나 표본이 큰 경우 (Z-검정)
가설:
H0: μ = μ0
HA: μ ≠ μ0
검정통계량:

t-분포와 t-검정
t-분포의 유래와 특징
t-분포는 표본의 크기가 작고 모분산을 모를 때 사용되는 확률분포로, William Gosset에 의해 개발되었습니다. 표본의 자유도에 따라 분포의 모양이 달라집니다.

t-분포의 정의와 자유도
모집단이 정규분포를 따르고 모분산을 모를 때, 표본표준편차 S를 사용하여 t-분포를 적용합니다.
자유도(df)는 표본의 개수에서 1을 뺀 값(n-1)입니다.


모분산을 모를 때의 가설검정 (t-검정)
H0: μ = μ0
HA: μ ≠ μ0
검정통계량:

회귀분석 (Regression Analysis)
회귀분석의 유래와 개념
회귀분석은 두 변수 간의 함수적 관계를 분석하여, 독립변수의 값에 따라 종속변수의 값을 예측하는 통계적 방법입니다. 1893년 Galton이 이론을 발표하였습니다.

회귀모형과 잔차
회귀모형은 로 표현되며, 잔차는 실제값과 예측값의 차이입니다.


최소제곱법 (Least Squares Method)
최소제곱법은 잔차 제곱합을 최소화하는 회귀직선을 구하는 방법입니다.
회귀선:
잔차 제곱합 최소화:

회귀계수의 검정 (t-검정, F-검정)
회귀계수(기울기 b)가 0인지 검정하여 독립변수가 종속변수에 영향을 주는지 확인합니다.
t-검정: ,
F-검정: , ,


회귀분석 예제 및 결과 해석
아래 표는 광고비(X)와 매출액(Y) 간의 회귀분석 예제 데이터입니다.
광고비(X) | 매출액(Y) |
|---|---|
1.0 | 6.5 |
1.1 | 8.2 |
1.2 | 8.3 |
1.6 | 10.0 |
2.1 | 12.3 |
2.7 | 13.1 |
3.2 | 14.2 |
4.0 | 14.6 |
5.2 | 15.3 |
6.0 | 15.8 |


회귀분석 결과의 주요 통계량은 다음과 같습니다.
통계량 | 값 |
|---|---|
결정계수 (R²) | 0.8291 |
표준 오차 | 1.4638 |
관측수 | 10 |


분산분석표(ANOVA) 결과:
변동요인 | 제곱합 | 자유도 | 제곱평균 | F 비 | P-값 |
|---|---|---|---|---|---|
회귀 | 83.18 | 1 | 83.18 | 38.821 | 0.000251 |
잔차 | 17.14 | 8 | 2.14 | - | - |
계 | 100.32 | 9 | - | - | - |

해석: 결정계수(R²)가 0.8291로, 광고비가 매출액 변동의 약 82.9%를 설명합니다. F-비와 t-통계량의 p-값이 유의수준 0.05보다 작으므로, 광고비와 매출액 사이에 유의한 선형관계가 있음을 알 수 있습니다.
*Additional info: 본 자료는 가설검정, t-분포, 회귀분석의 핵심 개념과 실제 데이터 분석 예시를 포함하여, 통계학의 실질적 응용을 이해하는 데 중점을 두었습니다.*