카테고리 없음

빅데이터분석기사 공부하기 - 정리

우주별꽃 2025. 4. 4. 14:20
반응형

🔹 1. 정규화 vs 표준화

항목정규화 (Normalization)표준화 (Standardization)
목적 서로 다른 범위 → 같은 범위 평균 중심으로 맞추기
수식 (X−min)/(max−min)(X - \text{min}) / (\text{max} - \text{min}) (X−mean)/std(X - \text{mean}) / \text{std}
결과 범위 0 ~ 1 평균 0, 표준편차 1
사용 상황 값의 범위가 제각각일 때 정규분포 기반 알고리즘, 딥러닝
필요 모델 KNN, SVM, K-means, PCA, 딥러닝 동일

🔹 2. 정규화가 필수인 모델 vs 필요 없는 모델

정규화 필수정규화 필요 없음
✅ KNN (거리 계산)  
✅ K-means  
✅ SVM  
✅ PCA  
✅ 신경망 ❌ Decision Tree
❌ Random Forest  
❌ XGBoost  
❌ LightGBM  

🔹 3. L1 vs L2 정규화

항목L1 정규화 (Lasso)L2 정규화 (Ridge)
패널티 방식 절댓값 합 제곱합
특징 변수 선택 기능 있음 → 불필요 변수 계수 0 모든 변수 유지 → 계수만 작아짐
사용 목적 해석력 좋은 모델, 변수 압축 안정적 예측, 과적합 방지
희소성 높음 (0이 많아짐) 낮음 (0이 거의 없음)

🔹 4. 주요 그래프 목적 요약

그래프목적
히스토그램 연속형 데이터의 분포 확인
박스플롯 이상치, 중앙값, 사분위수 확인
산점도 두 변수 간 관계/상관성 확인
막대그래프 카테고리 간 비교
파이차트 비율/구성비 시각화
선그래프 시간 흐름에 따른 값 변화 확인

🔹 5. 지표 구분 (Precision / Recall / F1)

지표의미수식
정밀도 (Precision) 예측한 양성 중 실제 양성 TP / (TP + FP)
재현율 (Recall) 실제 양성 중 예측한 양성 TP / (TP + FN)
F1 점수 정밀도와 재현율의 조화 평균 2 × P × R / (P + R)

✔️ 정밀도: 맞췄나?
✔️ 재현율: 다 잡았나?
✔️ F1: 균형 잡힌 평가


🧠 암기 꿀팁

  • 📏 정규화 → 범위 맞춤
  • 🧮 표준화 → 평균 중심 맞춤
  • ✂️ L1 → 변수 줄이기
  • 🧲 L2 → 전체 안정성 확보
  • 📊 산점도 → 관계 시각화
  • 🎯 F1 → 정밀도 + 재현율 균형 점수
반응형