공부 일지 #2 | 빅데이터 및 클라우드 기초2

학습 날짜: 2025.07.04 & 2025.07.07

구분	특징	목적
통계(Statistics)	- 정규 분포 기반 - 데이터가 많아져도 정해진 분포 내에서만 해석 - 모수 중심 분석	- 유의성 검정(significance test) - 설명적 분석
머신러닝/딥러닝 (ML/DL)	- 분포 가정 없이 데이터 기반으로 패턴 학습 - 데이터가 많아질수록 정확도 향상	- 예측(prediction) 중심 - 비정형 데이터도 학습 가능

✅ 실무에서는 머신러닝으로 예측, 통계로 유의성 검정을 병행하는 경우가 많음 → 둘 다 활용할 수 있어야 함.

데이터 기획 - 수집 - 관리 - 가공 및 분석 - 시각화

대표 저장소:
- Hadoop HDFS
- Amazon S3
확장 방식:
- Scale-up: 서버 한 대의 성능을 높임
- Scale-out: 서버 대수를 늘림 → 분산 처리에 유리
저장 시스템 비교:

시스템	특징	확장성
RDBMS	관계형 데이터 저장, 정규화 기반	❌ Scale-out 어려움 (관계 깨짐)
NoSQL	반정형/비정형 데이터 저장 가능, Key-Value 등 다양한 형태	✅ Scale-out 용이

전체 과정 중 가장 많은 시간 소요
사용 기술:
- Hadoop MapReduce
- Spark
- Hive 등
※ R, Scikit-learn 등은 빅데이터가 아닌 단일 머신 기반 분석 도구

✅ MapReduce란?
대용량 데이터를 분산 환경에서 병렬로 처리하는 프로그래밍 모델

Map: 데이터를 나누어 여러 노드에서 개별 처리

Reduce: 처리 결과를 취합하여 통합 분석

📂 서비스 모델 (Service Model)

유형	설명	예시
On Premises	서비스를 사서 사용자가 다 관리해야 함	-
IaaS	인프라(서버, 스토리지 등)를 가상으로 제공	AWS EC2
PaaS	개발 환경 및 플랫폼을 제공	Heroku, AWS Elastic Beanstalk
SaaS	완성된 소프트웨어를 제공	Microsoft 365, Google Docs

🌎 클라우드 배포 모델 (Deployment Model)

🔧 클라우드 주요 개념 용어

유형	설명
Data Center	대규모 서버를 설치한 물리적 공간
Region	데이터 센터의 지리적 위치(도시 단위) → 성능, 지연시간, 비용에 영향
AZ (Availability Zone)	하나의 Region에 속한 물리적 독립 서버 그룹 → 보통 2~3개 이상 구성
Virtualization	가상화 기술. 필요할 때만 서버 자원을 유동적으로 생성/할당 가능

🛠️ AWS 주요 빅데이터 서비스

EMR (Elastic MapReduce): Hadoop/Spark 기반 대규모 데이터 분산 처리 플랫폼
Kinesis: 실시간 데이터 스트리밍 처리 서비스
Redshift: 고속 데이터 분석을 위한 클라우드 기반 데이터 웨어하우스
QuickSight: AWS의 BI(시각화) 도구, 대시보드 작성에 유용
Athena: Amazon S3에 저장된 데이터를 SQL로 직접 조회 분석
Glue: ETL(추출, 변환, 적재) 작업 자동화 서비스
Sage Maker: MLOps(ML operation) 완전 관리형 서비스, ”데이터 수집 → 전처리 → 모델 → y hat → 평가 → 수집/전처리/모델 등 더 나은 모델을 위해 반복”하는 과정을 하기 쉽게 서비스를 제공
Forecast: 시계열 데이터 예측을 위한 ML 서비스

공부 일지 #6 \| Python 실습 (2)	2025.07.18
공부 일지 #5 \| Python의 동작 원리: 메모리 구조부터 NS-Chart까지 (2)	2025.07.15
공부 일지 #4 \| 리눅스 명령어 및 시스템 개념 정리 (3)	2025.07.13
공부 일지 #3 \| 네트워크의 흐름과 주요 개념 정리 (0)	2025.07.13
공부 일지 #1 \| 빅데이터 및 클라우드 기초1 (0)	2025.07.11

티스토리툴바