빅데이터분석기사 공부하기 - 정리

카테고리 없음

빅데이터분석기사 공부하기 - 정리

우주별꽃 2025. 4. 4. 14:20

🔹 1. 정규화 vs 표준화

항목정규화 (Normalization)표준화 (Standardization)

목적	서로 다른 범위 → 같은 범위	평균 중심으로 맞추기
수식	(X−min)/(max−min)(X - \text{min}) / (\text{max} - \text{min})	(X−mean)/std(X - \text{mean}) / \text{std}
결과 범위	0 ~ 1	평균 0, 표준편차 1
사용 상황	값의 범위가 제각각일 때	정규분포 기반 알고리즘, 딥러닝
필요 모델	KNN, SVM, K-means, PCA, 딥러닝	동일

🔹 2. 정규화가 필수인 모델 vs 필요 없는 모델

정규화 필수정규화 필요 없음

✅ KNN (거리 계산)
✅ K-means
✅ SVM
✅ PCA
✅ 신경망	❌ Decision Tree
❌ Random Forest
❌ XGBoost
❌ LightGBM

🔹 3. L1 vs L2 정규화

항목L1 정규화 (Lasso)L2 정규화 (Ridge)

패널티 방식	절댓값 합	제곱합
특징	변수 선택 기능 있음 → 불필요 변수 계수 0	모든 변수 유지 → 계수만 작아짐
사용 목적	해석력 좋은 모델, 변수 압축	안정적 예측, 과적합 방지
희소성	높음 (0이 많아짐)	낮음 (0이 거의 없음)

🔹 4. 주요 그래프 목적 요약

그래프목적

히스토그램	연속형 데이터의 분포 확인
박스플롯	이상치, 중앙값, 사분위수 확인
산점도	두 변수 간 관계/상관성 확인
막대그래프	카테고리 간 비교
파이차트	비율/구성비 시각화
선그래프	시간 흐름에 따른 값 변화 확인

🔹 5. 지표 구분 (Precision / Recall / F1)

지표의미수식

정밀도 (Precision)	예측한 양성 중 실제 양성	TP / (TP + FP)
재현율 (Recall)	실제 양성 중 예측한 양성	TP / (TP + FN)
F1 점수	정밀도와 재현율의 조화 평균	2 × P × R / (P + R)

✔️ 정밀도: 맞췄나?
✔️ 재현율: 다 잡았나?
✔️ F1: 균형 잡힌 평가

🧠 암기 꿀팁

📏 정규화 → 범위 맞춤
🧮 표준화 → 평균 중심 맞춤
✂️ L1 → 변수 줄이기
🧲 L2 → 전체 안정성 확보
📊 산점도 → 관계 시각화
🎯 F1 → 정밀도 + 재현율 균형 점수

현재글빅데이터분석기사 공부하기 - 정리

우주별꽃

ROE, 산업분석, 이동평균선, 부채비율, PER, 경제적마인드, 경제, 경제적 마인드, 데드크로스, PBR, 빅데이터분석기사, 부자, 주식, 골든크로스, 돈, 자기계발, 재무제표, 저녁식단, 부자되는법, 가난,

Today :
Yesterday :

티스토리툴바