본문 바로가기

공부 일지 #20 | 데이터 분석 기초 정리1: 표본·표집·확률·확률변수

@studying:)2025. 8. 14. 16:14

학습 날짜: 2025.08.13 ~ 2025.08.14


어제부터는 빅데이터 분석을 위한 통계 공부를 시작했다. 나는 학부와 석사 과정에서 심리 통계 수업을 세 차례 수강한 경험이 있기에, 내용 자체는 낯설지 않았다. 그러나 통계학에서 사용하는 관점과 용어가 내가 익혀 온 것과 미묘하게 달라, 오히려 익숙했던 개념들이 혼란스럽게 느껴지는 순간도 있었다. 그래서 이번에는 헷갈리지 않도록, 이해한 내용을 정리하는 데 초점을 두었다.

 

개요

데이터 처리 흐름

  • 데이터웨어하우스(Data Warehouse, DW): 비즈니스 전체 데이터셋을 포함하는 중앙 데이터 저장소
  • 데이터마켓(Data Marget, DM): 최종 사용자가 쉽게 조회할 수 있도록 비즈니스 기능에 따라 데이터를 분리 및 데이터큐브 생성

 

데이터 분석 기법 종류

  • 시각화
    : 데이터를 가장 쉽게 분석할 수 있는 방법
  • 공간분석(QGIS)
    : 지도 위에 데이터 특성을 나타내는 방법
  • 탐색적 자료 분석(EDA)
    : 연속형 또는 문자형 데이터들의 시각화를 통해 해당 변수의 분포 또는 관계 및 특징을 찾아내는 방법
  • 통계분석
    • 기술통계: 모집단으로부터 표본을 추출하고 기초통계량으로 데이터 분석
    • 추론통계: 기초통계량으로 모집단의 특징을 추정(추론)하는 데이터 분석
  • 데이터 마이닝(= ML, DL)
    : 대량의 데이터에서 의미있는 정보를 추출하는 개념
    : 새로운 상관관계, 패턴 등을 탐색하고 모형화하여 미래에 대한 예측을 하는 방법

모집단과 표본

  • 모집단(population)
    : 분석이 필요한 관심 대상의 전체 집합
  • 모수(parameter)
    : 모집단을 분석하여 얻어지는 결과 수치(수량적 특성)
       예) 평균(μ), 분산(σ²), 표준편차(σ)
  • 표본(sample)
    : 모집단의 하위 집단으로 실질적인 데이터 분석의 대상
  • 통계량(statistic)
    : 표본을 분석하여 얻어지는 하나의 값으로 나타내어지는 결과 수치(수량적 특성)
    예) 평균(x̄), 분산(s²), 표준편차(s)

 

  • 표집(sampling)
    : 모집단(Population)에서 일부를 선택해 표본(Sample)을 만드는 절차 또는 방법
    : 표본은 모집단을 완벽히 대표하지 못할 수 있어 표집 오차가 발생
  • 추론(Inference)
    : 통계량에 기반하여 모수치 값을 추측하는 과정
    : 적절한 표본 설계와 분석 방법을 통해 오차를 줄이는 것이 목표

표본 추출(표집) 방법

  • simple random sampling (단순 무선 표집)
    • 모집단에 대해 무작위 추출, 선택될 확률이 동일한 표집 방법
    • 난수표를 사용하기도 함
    • 장점: 연구자의 편견이 들어갈 가능성 낮음
    • 단점: 항상 모집단을 대표하지 않을 수 있음
  • stratified random sampling (층화 표집)
    • 모집단을 몇 개의 층으로 나누고, 각 층의 데이터 비율만큼 단순 무선 표집을 진행
    • imbalanced dataset에 사용 가능
    • 장점: 표집 오차를 줄일 수 있음
    • 단점: 층을 나누기 위해 모집단의 특성을 알아야 하고 계층을 정의하는 변수가 적절치 못할 가능성이 있음
  • systematic sampling (쳬계적 표집, 계통추출법)
    • 모집단 목록에서 매 k번째 요소를 표본으로 선정하는 방법
    • 장점: 표본 추출이 용이, 적은 비용
    • 단점: 데이터가 패턴을 가지게 되는 경우 모집단의 특성을 하나도 반영하지 못할 수 있음
  • cluster sampling (군집 표집)
    • 모집단의 구성요소가 군집화 되어 있는 경우, 군집을 표본 단위로 하여 무작위 추출
    • 단, 군집간 동질성 & 군집내 이질성이 확보되어야 함
    • 장점: 모집단에 일부만 알면 가능함
    • 단점: 표집오차가 클 수 있음, 군집이 모집단을 대표하지 못할 수 있음

표본데이터 형태

데이터 표현 용어 이해

아래와 같이 행렬 형태 또는 스프레드시트 형태로 변환하여 데이터 분석에 사용

  • 변수(Variable | Feature)
    : 측정 가능한 속성, 머신러닝에서 Feature 라고 함
     예) sepal.length, sepal.width, petal.length, petal.width, species
  • 관측값(Value | Feature Value)
    : 샘플링 시 변화됨
     예) setosa, versicolor, virginica
  • 관측점(observation | row | instance)
    : 측정된 정보 집합
     예) [row 1] 0 | 4.9 | 3.0 | 1.4 | 0.2 | setosa

 

데이터 척도 종류 이해

  • 범주형(Categorical) → 이산형, 질적 데이터
    • 명목척도(Nominal)
      : 순서 없음,  예) 성별, 혈액형, 직업 구분, 지역 구분
    • 서열척도(Ordinal)
      : 순서 있음,  예) 만족도, 학점, 계급
  •  연속형(Continuous) → 수치형, 양적 데이터
    • 구간척도(Interval)
      : 측정치 간의 간격이 일정, 덧셈·뺄셈 가능
      : 절대 '0' 없음 (0은 기준점)
       예) 온도
    • 비율척도(Ratio)
      : 절대 '0' 있음
      : 사칙연산 모두 가능
       예) 신장, 매출액, 소득, 시청률, 교통사고 건수

확률 및 분포

용어정리

확률? 어떤 사건이 발생할 가능성을 0~1사이의 숫자로 표현한 것

  • 확률 실험(= 결과가 랜덤한 실험) ⇒ 확률모형

             ↓

  • 표본 공간

             ↓

  • 사건 (= 표본 공간의 부분집합)

 

확률의 공리

  1. 임의의 사건A에 대해 P(A) ≥ 0
  2. P(S) = 1
  3. 표본공간 S에 정의된 서로 상호배반인사건 A1, A2, A3...에 대해 P(A1 ∪ A2 ∪ A3 ...)
상호배반적이다 = 교집합이 없다.
즉, 한 사건의 결과에 대해 공존할 수 없으면 상호배반이임.

예) 주사위를 한 번 던졌을 때,
      - 사건(A): 짝수
      - 사건(B): 홀수
       ⇒ A와 B는 동시에 발생할 수 없으므로 상호배반

 

확률 종류 (베이즈 정리 관점)

베이즈 정리

확률 종류 정의 기호 예시
사전 확률
(Prior Probability)
사건 A가 발생할 가능성, 정보(B) 없이 추정한 확률 P(A) 비 예보를 보기 전, 계절과 날씨 패턴에 기반해 비가 올 확률
사후 확률
(Posterior Probability)
사건 B가 일어난 이후 A가 발생할 확률 P(A∣B) 비가 올 확률을 기상 레이더 데이터(증거)를 기반으로 갱신한 값
조건부 확률
(Conditional Probability)
특정 조건하에서 다른 사건이 발생할 확률 P(B∣A)
비가 오는 날에 우산을 쓸 확률
결합 확률
(Joint Probability)
두 사건이 동시에 발생할 확률 P(A ∩ B),
P(A,B)
비가 오고 동시에 기온이 30도 이상일 확률
주변 확률
(Marginal Probability)
다른 사건과 관계없이 단독으로 일어날 확률 P(B) 기온과 상관없이 비가 올 확률

 

조건부 확률

표본공간 S에 사건 A와 B가 정의되어 있으며, P(B) > 0라고 가정

이 때, 사건 B가 일어났다는 가정하에 사건 A가 일어날 조건부 확률은 

예) 사건 A: 주사위 눈이 3이하, 사건 B: 짝수 ⇒ P(A | B) = 3/6

독립 사건 
? 두 사건이 서로의 발생 확률에 영향을 주지 않는 경우

두 사건 A, B가 다음 중 하나를 만족하면 서로 독립
1) P(A | B) = P(A)
2) P(A ∩ B) = P(A) P(B)
3) P(B | A) = P(B)

 

상호배반과 독립의 차이

구분 상호배반(Mutually Exclusive) 독립(Independent)
정의 두 사건이 동시에 발생할 수 없음 한 사건이 다른 사건의 발생 확률에 영향을 주지 않음
수학식 P(A ∩ B) = 0 P(A ∩ B) = P(A) P(B)
동시 발생 여부 절대 불가능 가능
영향 여부 한 사건이 발생하면 다른 사건은 반드시 발생 불가 한 사건의 발생 여부가 다른 사건의 확률에 영향을 주지 않음
예시 주사위 1회 던짐 → 짝수/홀수 동전 2회 던짐 → 첫 번째 앞면, 두 번째 앞면
관계 상호배반이면 보통 독립이 아님* 독립이어도 상호배반일 필요 없음

 

확률변수(Random Variable)

확률 실험의 결과를 숫자로 대응시키는 함수

즉, 결과값 자체가 아니라 결과를 숫자값으로 매핑해 주는 규칙

 

데이터프레임과 연결해서 보면 각 컬럼(column)은 "하나의 확률 변수"처럼 생각 가능

예: height, weight, score 컬럼 → 각각 다른 확률 변수

 

[ 종류 ] 

  • 이산확률변수: 확률변수가 취할 수 있는 값의 개수가 유한
  • 연속확률변수: 확률변수가 취할 수 있는 값의 개수가 무한

 

studying:)
@studying:) :: what i studied

studying:) 님의 학습 여정을 기록하는 블로그입니다.

목차