공부 일지 #22 | 데이터 분석 기초 정리2: 자유도, 분포, 기초통계량

학습 날짜:2025.08.18

자유도(df, Degree of Freedom)

정의: 평균으로부터 자유로운 수
보통 n - 1
- 이유: n개의 값 중 마지막 값은 평균으로부터 이미 결정되기 때문에 자유롭지 않음

공식으로 표현

자유도(df) = 전체 관측치 수(n) - 제약조건 수
평균을 사용했으므로 제약조건 = 1 → df = n - 1

일반적인 활용

표본분산(sample variance)
- 분모를 n이 아니라 n-1로 나누는 이유 = 자유도가 n-1이기 때문
  (평균을 구하는 데 이미 1개의 자유도가 소모됨)
검정(test)
- t-test, F-test, χ²-test 등에서 통계량의 분포는 자유도(df)에 따라 달라짐
- 예: t-분포 → df = n-1, χ²-분포 → df = (관측 cell 개수) - 제약조건 수

👉 분포마다 검정 방법이 다르고, 자유도 또한 달라진다.

분포(Distribution)

데이터의 "크다/작다"를 판단할 수 있는 기준 제공
모분포의 성질을 이해하고, 검정에 활용

주요 분포 종류

베르누이 분포 (Bernoulli Distribution)
: 한 번의 시행에서 성공/실패(0 또는 1) 두 가지 결과만 가지는 분포
→ 예: 동전 앞면(1)·뒷면(0)
이항 분포 (Binomial Distribution)
: 독립적인 베르누이 시행을 n번 반복했을 때 성공 횟수를 따르는 분포
→ 예: 10번 동전 던져 앞면이 나오는 횟수
포아송 분포 (Poisson Distribution)
: 단위 시간·공간에서 발생하는 사건의 발생 횟수를 따르는 분포
→ 예: 한 시간 동안 콜센터에 걸려오는 전화 수
지수 분포 (Exponential Distribution)
: 포아송 과정에서 사건이 발생할 때까지 걸리는 시간을 따르는 분포
→ 예: 다음 전화가 걸려올 때까지의 대기시간
정규 분포 (Normal Distribution)
: 가장 대표적인 연속형 분포, 평균을 중심으로 대칭적 종모양
→ 예: 키, 몸무게, 시험 점수 등 자연·사회 현상에서 자주 등장
t-분포 (Student’s t-Distribution)
: 표본 크기가 작을 때 평균을 추론하기 위해 사용하는 분포
: 표본 크기가 커질수록 정규분포에 가까워짐
→ 정규분포와 유사하게 좌우 대칭의 종모양, 평균 0 중심, 꼬리가 두꺼움
χ²(카이제곱) 분포 (Chi-Square Distribution)
: 정규분포 변수를 제곱해 더한 값의 분포(분포의 분포)
: 분산 검정, 독립성 검정 등에 사용
→ 예: 교차표 독립성 검정
F-분포 (F Distribution)
: 두 개의 χ² 분포를 자유도로 나누어 얻은 비율의 분포
: 주로 분산 비교, ANOVA(분산분석), 회귀분석에 활용

기초통계량 (Descriptive Statistics)

기초통계량을 통해 EDA(탐색적 데이터 분석) 가능
정의
- 기초통계: 자료를 정리하고 요약하여 특성을 기술하는 기법
- 통계량: 모집단의 모수를 추정하기 위해 표본에서 계산된 값 (평균, 중앙값, 분산, 표준편차, 왜도, 첨도 등)

통계량 구분

숫자형 변수
- 위치통계량: 평균, 중앙값, 최빈값, 절사평균, 분위수
- 변이통계량: 범위, 분산, 표준편차, IQR
- 모형통계량: 왜도, 첨도
범주형 변수
- 빈도, 상대빈도

위치통계량

평균(Mean): 대표적인 자료 중심 척도
- 산술평균(Arithmetic Mean) → 단순 중심값 (예: 시험 점수 평균)
- 기하평균(Geometric Mean) → 비율·성장률 데이터에 적합 (예: 경제 성장률, 투자 수익률)
- 조화평균(Harmonic Mean) → 속도·율, 비율 데이터에 적합 (예: 평균 속도, ML 성능 평가–F1 Score)
- 가중평균(Weighted Mean) → 데이터 중요도 반영 (예: 학점, 시계열 데이터의 가중치 적용)
중앙값(Median): 정렬된 데이터의 가운데 값
최빈값(Mode): 가장 자주 나타나는 값, 이상치 영향 없음
절사평균(Trimmed Mean): 양쪽 극단값을 일정 비율 제외하고 계산한 평균
사분위수(Quartile): 데이터를 4등분하는 기준(Q1, Q2=중앙값, Q3). Box plot으로 시각화 가능

변이통계량

분산(Variance): 데이터 흩어짐 정도
표준편차(Standard Deviation): 분산의 제곱근, 분산은 제곱 단위이므로 표준편차는 원래 단위를 복원, 불규칙성을 측정
변동계수(CV): 집단 간 상대적 변동 비교 시 사용
IQR(Interquartile Range): Q3 - Q1, 중간 50% 데이터 범위로 변동성 판단

모형통계량

왜도(Skewness): 분포의 비대칭 정도(왼쪽/오른쪽 치우침)

첨도(Kurtosis): 분포의 뾰족한 정도, 평균 근처 데이터 집중도

변수의 타입과 시각화 방법

❓ 시각화는 데이터 정리의 한 형태이며, 통계량을 바탕으로 만들어짐

		수치형	범주형
기술(기초) 통계		분포분석 - 데이터 특성: 평균, 분산, 표준편차 등	빈도분석 - 데이터 특성: 빈도, 비율, 상대도수
시각화	일변량	히스토그램, box plot	pie chart, bar chart
	다변량	범주형-수치형: boxplot, bar chart 수치형-수치형: scatter plot

✅ 시계열 데이터는 line chart 이용

'LG U+ Why Not SW Camp 8기 > 학습 로그' 카테고리의 다른 글

공부 일지 #24 \| Python_Visualization 연습: Matplotlib & Pandas (4)	2025.08.19
공부 일지 #23 \| Python Pandas 데이터 분석 기초 함수 (0)	2025.08.19
공부 일지 #21 \| Python Pandas 기본 문법 정리: 데이터 전처리 기초 (8)	2025.08.14
공부 일지 #20 \| 데이터 분석 기초 정리1: 표본·표집·확률·확률변수 (7)	2025.08.14
공부 일지 #19 \| SQL Toy project: CRM 프로그램 만들기 (6)	2025.08.13

공부 일지 #22 | 데이터 분석 기초 정리2: 자유도, 분포, 기초통계량

자유도(df, Degree of Freedom)

공식으로 표현

일반적인 활용

분포(Distribution)

주요 분포 종류

기초통계량 (Descriptive Statistics)

통계량 구분

위치통계량

변이통계량

모형통계량

변수의 타입과 시각화 방법

'LG U+ Why Not SW Camp 8기 > 학습 로그' 카테고리의 다른 글

티스토리툴바