학습 날짜: 2025.07.04 & 2025.07.07
📌 데이터 분석 기술 이해
🧠데이터 마이닝 기술
| 구분 | 특징 | 목적 |
| 통계(Statistics) | - 정규 분포 기반 - 데이터가 많아져도 정해진 분포 내에서만 해석 - 모수 중심 분석 |
- 유의성 검정(significance test) - 설명적 분석 |
| 머신러닝/딥러닝 (ML/DL) | - 분포 가정 없이 데이터 기반으로 패턴 학습 - 데이터가 많아질수록 정확도 향상 |
- 예측(prediction) 중심 - 비정형 데이터도 학습 가능 |
✅ 실무에서는 머신러닝으로 예측, 통계로 유의성 검정을 병행하는 경우가 많음 → 둘 다 활용할 수 있어야 함.
🧱 빅데이터 기술 구조
빅데이터 처리 단계
데이터 기획 - 수집 - 관리 - 가공 및 분석 - 시각화
1️⃣ 기획(Planning)
- 도메인 지식이 매우 중요함
- 데이터를 잘 이해해야 문제 정의 및 인사이트 도출 가능
2️⃣ 수집(Collection)
- 대표 저장소:
- Hadoop HDFS
- Amazon S3
- 확장 방식:
- Scale-up: 서버 한 대의 성능을 높임
- Scale-out: 서버 대수를 늘림 → 분산 처리에 유리
- 저장 시스템 비교:
| 시스템 | 특징 | 확장성 |
| RDBMS | 관계형 데이터 저장, 정규화 기반 | ❌ Scale-out 어려움 (관계 깨짐) |
| NoSQL | 반정형/비정형 데이터 저장 가능, Key-Value 등 다양한 형태 |
✅ Scale-out 용이 |
3️⃣ 관리(Management)
- 데이터가 안정적으로 수집되고 저장되도록 모니터링 및 운영 관리 수행
4️⃣ 가공 및 분석(Processing & Analysis)
- 전체 과정 중 가장 많은 시간 소요
- 사용 기술:
- Hadoop MapReduce
- Spark
- Hive 등
✅ MapReduce란?
대용량 데이터를 분산 환경에서 병렬로 처리하는 프로그래밍 모델
- Map: 데이터를 나누어 여러 노드에서 개별 처리
- Reduce: 처리 결과를 취합하여 통합 분석
5️⃣ 시각화(Visualization)
- 통계 분석 → 패턴, 특징 도출 → 시각화
- 주요 통계량:
- 평균(Mean), 분산(Variance), 표준편차(Standard Deviation)
- 자주 쓰이는 그래프 6종류:
- Bar chart
- Line chart
- Box plot
- Histogram
- Scatter plot
- Pie chart
☁️ 클라우드 서비스 모델
📂 서비스 모델 (Service Model)
| 유형 | 설명 | 예시 |
| On Premises | 서비스를 사서 사용자가 다 관리해야 함 | - |
| IaaS | 인프라(서버, 스토리지 등)를 가상으로 제공 | AWS EC2 |
| PaaS | 개발 환경 및 플랫폼을 제공 | Heroku, AWS Elastic Beanstalk |
| SaaS | 완성된 소프트웨어를 제공 | Microsoft 365, Google Docs |
🌎 클라우드 배포 모델 (Deployment Model)
| 유형 | 설명 | 예시 |
| Public Cloud | 누구나 접근 가능한 공유 자원 | AWS, Azure |
| Private Cloud | 특정 조직만 접근 가능 | 보안 요구 높은 기업 |
| Community Cloud | 여러 기관이 공동 사용하는 형태 | 공공기관, 협회 등 |
| Hybrid Cloud | Public + Private 혼합 형태 | 대부분의 대기업 형태 |
🔧 클라우드 주요 개념 용어
| 유형 | 설명 |
| Data Center | 대규모 서버를 설치한 물리적 공간 |
| Region | 데이터 센터의 지리적 위치(도시 단위) → 성능, 지연시간, 비용에 영향 |
| AZ (Availability Zone) | 하나의 Region에 속한 물리적 독립 서버 그룹 → 보통 2~3개 이상 구성 |
| Virtualization | 가상화 기술. 필요할 때만 서버 자원을 유동적으로 생성/할당 가능 |
🛠️ AWS 주요 빅데이터 서비스
- EMR (Elastic MapReduce): Hadoop/Spark 기반 대규모 데이터 분산 처리 플랫폼
- Kinesis: 실시간 데이터 스트리밍 처리 서비스
- Redshift: 고속 데이터 분석을 위한 클라우드 기반 데이터 웨어하우스
- QuickSight: AWS의 BI(시각화) 도구, 대시보드 작성에 유용
- Athena: Amazon S3에 저장된 데이터를 SQL로 직접 조회 분석
- Glue: ETL(추출, 변환, 적재) 작업 자동화 서비스
- Sage Maker: MLOps(ML operation) 완전 관리형 서비스, ”데이터 수집 → 전처리 → 모델 → y hat → 평가 → 수집/전처리/모델 등 더 나은 모델을 위해 반복”하는 과정을 하기 쉽게 서비스를 제공
- Forecast: 시계열 데이터 예측을 위한 ML 서비스
'LG U+ Why Not SW Camp 8기 > 학습 로그' 카테고리의 다른 글
| 공부 일지 #6 | Python 실습 (2) | 2025.07.18 |
|---|---|
| 공부 일지 #5 | Python의 동작 원리: 메모리 구조부터 NS-Chart까지 (2) | 2025.07.15 |
| 공부 일지 #4 | 리눅스 명령어 및 시스템 개념 정리 (3) | 2025.07.13 |
| 공부 일지 #3 | 네트워크의 흐름과 주요 개념 정리 (0) | 2025.07.13 |
| 공부 일지 #1 | 빅데이터 및 클라우드 기초1 (0) | 2025.07.11 |