본문 바로가기

공부 일지 #2 | 빅데이터 및 클라우드 기초2

@studying:)2025. 7. 11. 16:55

 

학습 날짜: 2025.07.04 & 2025.07.07


 

📌 데이터 분석 기술 이해

🧠데이터 마이닝 기술

구분 특징 목적
통계(Statistics) - 정규 분포 기반
- 데이터가 많아져도 정해진 분포 내에서만 해석
- 모수 중심 분석
- 유의성 검정(significance test)
- 설명적 분석
머신러닝/딥러닝 (ML/DL) - 분포 가정 없이 데이터 기반으로 패턴 학습
- 데이터가 많아질수록 정확도 향상
- 예측(prediction) 중심
- 비정형 데이터도 학습 가능

 

✅ 실무에서는 머신러닝으로 예측, 통계로 유의성 검정을 병행하는 경우가 많음 → 둘 다 활용할 수 있어야 함.


🧱 빅데이터 기술 구조

빅데이터 처리 단계

데이터 기획 - 수집 - 관리 - 가공 및 분석 - 시각화


1️⃣ 기획(Planning)

  • 도메인 지식이 매우 중요함
  • 데이터를 잘 이해해야 문제 정의 및 인사이트 도출 가능

2️⃣ 수집(Collection)

  • 대표 저장소:
    • Hadoop HDFS
    • Amazon S3
  • 확장 방식:
    • Scale-up: 서버 한 대의 성능을 높임
    • Scale-out: 서버 대수를 늘림 → 분산 처리에 유리
  • 저장 시스템 비교:
시스템 특징 확장성
RDBMS 관계형 데이터 저장, 정규화 기반 ❌ Scale-out 어려움 (관계 깨짐)
NoSQL 반정형/비정형 데이터 저장 가능,
Key-Value 등 다양한 형태
✅ Scale-out 용이

3️⃣ 관리(Management)

  • 데이터가 안정적으로 수집되고 저장되도록 모니터링 및 운영 관리 수행

4️⃣ 가공 및 분석(Processing & Analysis)

  • 전체 과정 중 가장 많은 시간 소요
  • 사용 기술:
    • Hadoop MapReduce
    • Spark
    • Hive
    ※ R, Scikit-learn 등은 빅데이터가 아닌 단일 머신 기반 분석 도구

✅ MapReduce란?
      대용량 데이터를 분산 환경에서 병렬로 처리하는 프로그래밍 모델

  • Map: 데이터를 나누어 여러 노드에서 개별 처리
  • Reduce: 처리 결과를 취합하여 통합 분석

5️⃣ 시각화(Visualization)

  • 통계 분석 → 패턴, 특징 도출 → 시각화
  • 주요 통계량:
    • 평균(Mean), 분산(Variance), 표준편차(Standard Deviation)
  • 자주 쓰이는 그래프 6종류:
    • Bar chart
    • Line chart
    • Box plot
    • Histogram
    • Scatter plot
    • Pie chart

☁️ 클라우드 서비스 모델

📂 서비스 모델 (Service Model)

유형 설명 예시
On Premises 서비스를 사서 사용자가 다 관리해야 함 -
IaaS 인프라(서버, 스토리지 등)를 가상으로 제공 AWS EC2
PaaS 개발 환경 및 플랫폼을 제공 Heroku, AWS Elastic Beanstalk
SaaS 완성된 소프트웨어를 제공 Microsoft 365, Google Docs

 

🌎 클라우드 배포 모델 (Deployment Model)

유형 설명 예시
Public Cloud 누구나 접근 가능한 공유 자원 AWS, Azure
Private Cloud 특정 조직만 접근 가능 보안 요구 높은 기업
Community Cloud 여러 기관이 공동 사용하는 형태 공공기관, 협회 등
Hybrid Cloud Public + Private 혼합 형태 대부분의 대기업 형태

🔧 클라우드 주요 개념 용어

유형 설명
Data Center 대규모 서버를 설치한 물리적 공간
Region 데이터 센터의 지리적 위치(도시 단위)
→ 성능, 지연시간, 비용에 영향
AZ (Availability Zone) 하나의 Region에 속한 물리적 독립 서버 그룹
→ 보통 2~3개 이상 구성
Virtualization 가상화 기술. 필요할 때만 서버 자원을 유동적으로 생성/할당 가능

🛠️ AWS 주요 빅데이터 서비스

  • EMR (Elastic MapReduce): Hadoop/Spark 기반 대규모 데이터 분산 처리 플랫폼
  • Kinesis: 실시간 데이터 스트리밍 처리 서비스
  • Redshift: 고속 데이터 분석을 위한 클라우드 기반 데이터 웨어하우스
  • QuickSight: AWS의 BI(시각화) 도구, 대시보드 작성에 유용
  • Athena: Amazon S3에 저장된 데이터를 SQL로 직접 조회 분석
  • Glue: ETL(추출, 변환, 적재) 작업 자동화 서비스
  • Sage Maker: MLOps(ML operation) 완전 관리형 서비스, ”데이터 수집 → 전처리 → 모델 → y hat → 평가 → 수집/전처리/모델 등 더 나은 모델을 위해 반복”하는 과정을 하기 쉽게 서비스를 제공
  • Forecast: 시계열 데이터 예측을 위한 ML 서비스
studying:)
@studying:) :: what i studied

studying:) 님의 학습 여정을 기록하는 블로그입니다.

목차