🔹 1. 정규화 vs 표준화
항목정규화 (Normalization)표준화 (Standardization)
| 목적 |
서로 다른 범위 → 같은 범위 |
평균 중심으로 맞추기 |
| 수식 |
(X−min)/(max−min)(X - \text{min}) / (\text{max} - \text{min})(X−min)/(max−min) |
(X−mean)/std(X - \text{mean}) / \text{std}(X−mean)/std |
| 결과 범위 |
0 ~ 1 |
평균 0, 표준편차 1 |
| 사용 상황 |
값의 범위가 제각각일 때 |
정규분포 기반 알고리즘, 딥러닝 |
| 필요 모델 |
KNN, SVM, K-means, PCA, 딥러닝 |
동일 |
🔹 2. 정규화가 필수인 모델 vs 필요 없는 모델
정규화 필수정규화 필요 없음
| ✅ KNN (거리 계산) |
|
| ✅ K-means |
|
| ✅ SVM |
|
| ✅ PCA |
|
| ✅ 신경망 |
❌ Decision Tree |
| ❌ Random Forest |
|
| ❌ XGBoost |
|
| ❌ LightGBM |
|
🔹 3. L1 vs L2 정규화
항목L1 정규화 (Lasso)L2 정규화 (Ridge)
| 패널티 방식 |
절댓값 합 |
제곱합 |
| 특징 |
변수 선택 기능 있음 → 불필요 변수 계수 0 |
모든 변수 유지 → 계수만 작아짐 |
| 사용 목적 |
해석력 좋은 모델, 변수 압축 |
안정적 예측, 과적합 방지 |
| 희소성 |
높음 (0이 많아짐) |
낮음 (0이 거의 없음) |
🔹 4. 주요 그래프 목적 요약
그래프목적
| 히스토그램 |
연속형 데이터의 분포 확인 |
| 박스플롯 |
이상치, 중앙값, 사분위수 확인 |
| 산점도 |
두 변수 간 관계/상관성 확인 |
| 막대그래프 |
카테고리 간 비교 |
| 파이차트 |
비율/구성비 시각화 |
| 선그래프 |
시간 흐름에 따른 값 변화 확인 |
🔹 5. 지표 구분 (Precision / Recall / F1)
지표의미수식
| 정밀도 (Precision) |
예측한 양성 중 실제 양성 |
TP / (TP + FP) |
| 재현율 (Recall) |
실제 양성 중 예측한 양성 |
TP / (TP + FN) |
| F1 점수 |
정밀도와 재현율의 조화 평균 |
2 × P × R / (P + R) |
✔️ 정밀도: 맞췄나?
✔️ 재현율: 다 잡았나?
✔️ F1: 균형 잡힌 평가
🧠 암기 꿀팁
- 📏 정규화 → 범위 맞춤
- 🧮 표준화 → 평균 중심 맞춤
- ✂️ L1 → 변수 줄이기
- 🧲 L2 → 전체 안정성 확보
- 📊 산점도 → 관계 시각화
- 🎯 F1 → 정밀도 + 재현율 균형 점수