dudgus4943 님의 블로그

[내일배움캠프-본캠프] QA/QC 26/06/30

dudgus4943 — Tue, 30 Jun 2026 17:07:36 +0900

1. 왜 '실리콘'이며, 어떤 '결정면'이 중요할까?

웨이퍼 표면에 원자가 어떻게 배열되어 있는지(결정면)에 따라 반도체의 전기적 특성이 크게 좌우됩니다.

왜 수많은 물질 중 실리콘(Si)일까? 지구상에서 가장 풍부한 자원(모래) 중 하나라 가격이 저렴하고, 고온에서도 특성이 안정적입니다. 특히 절연막 역할을 하는 고품질의 산화막(SiO2)을 쉽게 형성할 수 있다는 것이 가장 큰 장점입니다.

실리콘은 1.1eV의 적절한 에너지 밴드의 값을 가짐

어떤 방향의 결정면을 선호할까? 일반적으로 현대의 집적회로(CMOS) 제조에는 (100) 면을 가진 실리콘 웨이퍼를 가장 많이 사용합니다.

(100)면의 경우 산화막이 형성되면 산소 원자와 결합이 아주 잘 맞아 떨어지기에 (110) (111)면들에 비해 계면 결함이 적다

. 따라서 산화막이 형성된 후의 최종 계면 결함은 (100)면이 압도적으로 적기에 전자가 방해물 없이 원활하게 흐를 수 있다.

2. 실리콘 잉곳(Ingot) 만들기: 초크랄스키(Cz) 법

웨이퍼를 만들기 위해서는 먼저 커다란 둥근 기둥 모양의 실리콘 잉곳(Ingot)을 만들어야 합니다. 이때 가장 대표적으로 사용되는 방법이 초크랄스키(Czochralski) 결정 성장법입니다.

고순도의 다결정 실리콘 원재료를 고온으로 가열하여 용융(Melt) 시킵니다.
용융된 실리콘 용액에 원하는 결정 방향을 가진 시드(Seed, 종자 결정)를 담급니다.
시드를 천천히 회전시키며 위로 끌어 올립니다.
용액 상태의 실리콘이 시드의 결정 구조를 그대로 따라가며 고체화되어 거대한 단결정 잉곳이 완성됩니다.

3. 잉곳에서 웨이퍼로! 가공 및 연마 공정

완성된 잉곳을 우리가 아는 얇고 둥근 웨이퍼로 만들기 위해서는 정밀한 가공 과정이 필요합니다.

1단계: 절단 (Sawing) 다이아몬드 톱날 등을 이용해 잉곳을 얇은 웨이퍼 형태로 썰어냅니다. 하지만 물리적으로 썰어냈기 때문에 표면이 거칠고 결함이 많은 상태입니다.
2단계: 화학적 기계적 연마 (CMP, Chemical Mechanical Polishing) 거친 표면을 거울처럼 매끄럽게 만드는 공정입니다. 나노 입자로 구성된 연마제(Slurry)와 화학 성분을 섞어 웨이퍼 표면에 원을 그리듯 문질러 연마합니다. 이 과정을 거치면 결정면이 평탄하고 광택이 우수한 웨이퍼가 탄생하며, 잉곳이 가지고 있던 고유의 결정면을 그대로 유지하게 됩니다.

4. 무결점을 향해! 웨이퍼 검사 및 평가

반도체 공정에 투입되기 전, 웨이퍼는 표면에 아무런 결함이나 불순물이 없는 무결점 상태여야 합니다. 이를 확인하기 위해 정밀한 검사를 진행합니다.

레이저 산란법 (Laser Scattering): 웨이퍼 표면에 레이저를 쏜 뒤, 반사되거나 산란되는 빛을 측정합니다. 이를 통해 표면의 미세한 요철이나 스크래치, 파티클(결함) 등을 찾아냅니다.
4점 측정법 (4-Point Probe): 웨이퍼 표면에 4개의 탐침을 접촉시켜 전류를 가하고, 일정한 거리에서의 전압 차이를 측정합니다. 이를 통해 웨이퍼의 전기 전도도(저항)를 측정하며, 이 값을 바탕으로 웨이퍼 내의 도핑 농도를 정확하게 산출할 수 있습니다.

5. 웨이퍼의 발전 트렌드: "더 크게, 더 많이!"

과거부터 현재까지 실리콘 웨이퍼의 직경은 꾸준히 커져 왔습니다. (100mm ➔ 300mm ➔ 450mm 연구 등)

직경이 커지는 이유: 웨이퍼의 크기가 커질수록 한 번의 공정으로 만들어낼 수 있는 반도체 칩의 수가 기하급수적으로 증가하기 때문입니다. 이는 곧 버려지는 테두리 면적을 줄이고 생산성을 극대화하여 원가를 절감하는 핵심 경쟁력이 됩니다.

[내일배움캠프-본캠프] QA/QC 26/06/29

dudgus4943 — Mon, 29 Jun 2026 20:33:49 +0900

안녕하세요! 오늘은 반도체 집적회로(IC) 칩 제작에서 가장 중요하고 핵심적인 기술, 바로 포토리소그래피(Photolithography)에 대해 알아보겠습니다. 반도체의 미세화를 이끄는 기술을 지금부터 자세히 파헤쳐 보겠습니다.

1. 포토리소그래피(Photolithography)란?

포토리소그래피는 빛(Photo)을 이용해 웨이퍼 위에 미세한 회로 패턴(Lithography)을 그려 넣는 공정입니다. 우리가 흔히 아는 사진관에서 필름을 인화하는 원리와 매우 비슷합니다.

핵심 역할: 기판 위에 필름을 증착하고, 그 위에 빛에 반응하는 감광제(Photoresist, PR)를 바른 뒤, 마스크(설계도)를 대고 특정 부분에만 빛을 쏘아(노광) 패턴을 만듭니다. 이후 불필요한 감광제를 식각/제거하여 원하는 회로를 완성합니다.
중요성: 0.1 마이크로미터($\mu m$) 이하의 초미세 패터닝이 가능하며, 현대의 CMOS 기반 트랜지스터 회로 집적도를 높이기 위한 가장 핵심적인 기술입니다. 반도체 회사의 기술력은 이 '초미세 패터닝'을 얼마나 잘하느냐에 달려있다고 해도 과언이 아닙니다.

2. 포토리소그래피 공정의 주요 평가 요소

공정이 얼마나 잘 설계되었는지 평가하는 5가지 주요 지표가 있습니다.

분해능(Resolution): 얼마나 작고 미세한 패턴을 선명하게 구현해 낼 수 있는가?
노출 면적(Exposure Area): 한 번의 노광으로 패턴을 만들어 낼 수 있는 전체 면적
얼라인먼트 정확도(Alignment Accuracy): 반도체는 여러 층(Layer)을 겹겹이 쌓아 올리는 반복 공정입니다. 따라서 하부 층과 상부 층의 패턴이 오차 없이 정확히 맞물리는지가 매우 중요합니다.
생산성(Throughput): 제한된 시간 안에 얼마나 많은 웨이퍼 면적을 처리할 수 있는가?
결함 밀도(Defect Density): 오염이나 파티클로 인한 결함이 얼마나 적은가? (결함이 많으면 칩의 수율이 떨어져 사용이 불가합니다.)

3. 광원과 노광 시스템의 발전

광원의 진화: 더 짧은 파장으로!

포토리소그래피 기술이 발전함에 따라, 더 미세한 패턴을 그리기 위해 점점 더 짧은 파장의 자외선(UV)을 사용하고 있습니다. 파장이 짧을수록 붓끝이 뾰족해지는 것과 같아서 더 정교한 그림을 그릴 수 있기 때문입니다.

최근에는 극자외선(EUV, Extreme Ultraviolet) 장비가 도입되면서 나노 단위의 굉장히 작은 초미세 트랜지스터 제작이 가능해졌습니다.

노광 시스템(Exposure System)의 종류

Contact Printing (접촉식): 점광원에서 나온 자외선이 마스크를 통과해 웨이퍼에 직접 닿는 방식입니다. 마스크와 포토레지스트(웨이퍼) 간의 간격이 거의 없어 해상도가 좋지만, 마스크가 웨이퍼와 닿아 오염되거나 손상될 위험이 큽니다.
- 참고: 마스크와 웨이퍼 사이에 약간의 간격을 띄우면 Proximity Printing (근접식)이라고 부릅니다. 손상 위험은 줄지만 해상도는 다소 떨어집니다.
Projection Printing (투영식): 현재 가장 많이 쓰이는 방식입니다. 점광원의 빛이 마스크를 통과한 후, 렌즈를 통해 다시 초점을 맞춰 웨이퍼의 일부 면적만 축소 투영하여 노광시킵니다. 마스크 손상이 없고 정밀한 제어가 가능합니다.

4. 포토레지스트(PR)와 DNQ의 비밀

포토레지스트(감광제)는 빛에 반응하여 화학적 성질이 변하는 고분자 물질입니다. 주로 3가지 성분으로 구성됩니다.

비활성 레진 (Resin): 포토레지스트 용액의 뼈대(베이스) 역할을 하는 고분자 물질입니다.
광반응성 화합물 (PAC, Photo Active Compound): 빛(자외선)을 받으면 화학적 결합이 분해되거나 반응하는 핵심 물질입니다.
용매 (Solvent): PR을 액체 상태로 만들어주며, 점도를 조절하여 스핀 코팅 시 PR의 두께를 결정합니다.

❓ 여기서 잠깐! DNQ란 무엇일까요?

**DNQ(Diazonaphthoquinone)**는 대표적인 광반응성 화합물(PAC) 중 하나로, 주로 **포지티브 포토레지스트(Positive PR)**에 사용됩니다.

빛을 받기 전에는 레진이 현상액(Developer)에 녹는 것을 방해하는 '용해 억제제' 역할을 합니다. 하지만 자외선(빛)을 받게 되면 화학 구조가 변하면서 산(Acid)으로 바뀌고, 결과적으로 빛을 받은 부분만 현상액에 아주 잘 녹게 만들어 줍니다.

5. 포토리소그래피 공정 순서 (Step-by-Step)

포토 공정은 마치 잘 짜인 요리 레시피처럼 엄격한 순서대로 진행됩니다.

Surface Cleaning (표면 세척): 공정의 첫 단추! 웨이퍼 표면의 유기물, 먼지 등 불순물을 깨끗하게 제거합니다.
HMDS 도포: 웨이퍼 표면은 보통 친수성인데, PR은 소수성입니다. 물과 기름처럼 섞이지 않는 둘 사이의 접착력을 높이기 위해 표면을 소수성으로 바꿔주는 HMDS 물질을 바릅니다. (노트의 HDMS는 HMDS의 오타이므로 정정했습니다!)
포토레지스트 도포 (PR Coating): 웨이퍼를 빠르게 회전시키는 '스핀 코팅(Spin Coating)' 방식을 이용해 PR을 얇고 균일하게 발라줍니다.
소프트 베이크 (Soft Bake): 약 90~100°C의 열을 가해 PR 내부에 남아있는 솔벤트(용매)를 증발시킵니다. 이를 통해 PR이 웨이퍼에 단단히 고정됩니다.
노광 공정 (Exposure): 포토마스크를 대고 설계된 패턴에만 선택적으로 자외선을 조사합니다.
포스트 노광 베이크 (PEB, Post-Exposure Bake): (선택 혹은 필수) 노광 후 다시 한번 열을 가해 빛을 받은 PR 내부의 화학 반응을 촉진시키고, 빛의 간섭으로 인해 생기는 물결무늬(Standing Wave)를 매끄럽게 펴줍니다.
현상 (Development): 현상액(Developer)을 뿌려 패턴을 형상화합니다. 포지티브 PR의 경우 빛을 받은 부분의 포토레지스트가 녹아서 제거됩니다.
하드 베이크 / 포스트 베이크 (Hard/Post Bake): 마지막으로 고온에서 굽는 과정입니다. 남아있는 PR을 더욱 단단하게 굳혀 접착성과 이후 진행될 식각(Etching) 공정에 대한 내성을 극대화합니다.

마치며

오늘은 반도체의 밑그림을 그리는 포토리소그래피 기술에 대해 알아보았습니다. 트랜지스터가 나노 단위로 작아질수록 이 포토 공정의 난이도와 중요성은 더욱 커지고 있습니다.

[내일배움캠프-본캠프] QA/QC 26/06/23

dudgus4943 — Tue, 23 Jun 2026 20:29:32 +0900

[라이브 세션] 머신러닝 심화 2회차

01. 지도학습 vs 비지도학습(클러스터링)

본격적인 개념 파악에 앞서, 우리가 기존에 배웠던 지도학습과 무엇이 다른지 직관적으로 비교해 볼까요?

구분	지도학습 (Supervised)	비지도학습 (Unsupervised)
입력 데이터	(x,y)입력 + 정답	x만 (정답 없음)
핵심 목표	새로운 데이터의 정답을 예측	데이터의 숨겨진 구조와 패턴 발견
대표 예시	스편 메일 분류, 불량품 판정	고객 행동별 그룹 묶기, 토픽 모델링
평가 방법	정확도(Accuracy), F1-Score 등	군집 품질 지표 (실루엣 스코어 등)

02. 클러스터링(Clustering)이란?

"기준을 가지고 데이터의 숨은 구조를 발견해 이름표 달아주기"

클러스터링은 정답이 없어도 데이터끼리의 거리를 측정해서 자동으로 비슷한 것들끼리 그룹(군집)을 만드는 방법론입니다. 마치 마구잡이로 섞여 있는 구슬들을 색상이나 크기 같은 특성을 보고 끼리끼리 모아두는 것과 같습니다.

좋은 군집을 나누는 수학적 기준

컴퓨터가 군집을 잘 나눴는지 판단할 때는 두 가지 거리를 계산합니다.

Intra-cluster (군집 내 거리): 같은 그룹 안에 있는 데이터들끼리의 거리는 가까울수록 좋습니다. (응집도 높음)
Inter-cluster (군집 간 거리): 서로 다른 그룹과 그룹 사이의 거리는 멀수록 좋습니다. (분리도 높음)

⚙️ 03. 프로세스 관점으로 보는 클러스터링 (QA/QC 적용 예시)

실무에서 클러스터링 프로젝트를 진행할 때는 다음과 같은 4단계 파이프라인을 거칩니다.

1단계: 문제 정의 ➡️ 무엇을 묶고 싶은가?
- (예시) 생산 공정 데이터 기반으로 발생하는 불량 유형들을 그룹화하고 싶다!
2단계: 특징 추출 ➡️ 어떤 데이터로 비교할까?
- 도메인 지식을 기반으로 필요한 변수를 고르고, 스케일링 및 차원 축소를 진행합니다.
3단계: 군집 수행 ➡️ 적절한 알고리즘 적용
- 데이터 특성에 맞춰 K-Means, DBSCAN 등의 알고리즘을 선택해 실행합니다.
4단계: 결과 해석 ➡️ 묶인 것들에 비즈니스 의미 부여
- "아하! 자동으로 묶인 1번 그룹 데이터들을 보니 '고온 환경에서 발생하는 불량'들이구나!" 하고 해석합니다.

04. 클러스터링은 언제, 어떻게 활용되나요?

현업에서 클러스터링이 강력한 무기가 되는 대표적인 3가지 관점입니다.

① 데이터 요약 및 시각화 (Summarization)

방대한 양의 데이터를 몇 개의 핵심 그룹으로 묶어 전체적인 판세를 파악합니다.

예시: 1년간의 뉴스 데이터를 클러스터링하여 올해의 주요 핫이슈 트렌드 토픽 찾기
예시: 위·경도 데이터를 바탕으로 트위터(X) 유저들이 응원하는 야구팀 분포 시각화

② 데이터에 대한 깊은 이해 (Understanding)

레이블이 없는 데이터의 순수한 분포와 패턴을 발견합니다.

예시: 스포티파이(Spotify)에서 1년간 재생된 음악들의 특성을 분석해 음악 장르/무드 파악
예시: 신용카드 사용 패턴을 분석해 고객 세그먼트 분류 및 유전자 발현 패턴으로 질병 유형 분류

③ 실제 행동을 위한 전략 수립 (Strategy Planning)

분석 결과로부터 비즈니스 액션 아이템을 도출합니다. 현업에서 가장 가치 있게 쓰이는 영역입니다.

이상 탐지 (Anomaly Detection): 정상 데이터 군집의 중심에서 말도 안 되게 멀리 떨어진 데이터를 찾아내 고장이나 사기 거래(FDS) 징후로 포착합니다.
타겟 마케팅: 고객을 VIP 군집, 가격 민감 군집, 트렌드 추종 군집 등으로 세분화하여 그룹별 맞춤형 할인 쿠폰이나 마케팅 캠페인을 설계합니다.

1. 기하학적 거리 (공간 중심)

우리가 흔히 생각하는 공간상의 좌표를 기준으로 거리를 재는 가장 기본적이고 직관적인 방법들입니다.

① 유클리디안 거리 (Euclidean Distance) "가장 빠른 직선거리"

개념: 두 점을 자로 대고 직선으로 이은 길이입니다. 학창 시절 배운 '피타고라스 정리'와 똑같습니다.
특징: 가장 대중적이고 K-means 알고리즘의 기본값입니다. 다만, 이상치(Outlier)가 있으면 거리가 왜곡되기 쉽다는 단점이 있습니다.
추천 상황: 변수들의 스케일(단위)이 비슷하고 연속적인 수치 데이터일 때 (예: 키, 몸무게 기반 고객 세분화)

② 맨하탄 거리 (Manhattan Distance) "빌딩을 피해 가는 바둑판 거리"

개념: 뉴욕 맨하탄의 바둑판 모양 도로처럼 대각선 돌파가 불가능할 때, 가로 축 차이와 세로 축 차이의 절댓값을 더한 거리입니다. (Taxicab Distance라고도 부릅니다.)
특징: 제곱을 하지 않기 때문에 유클리디안보다 이상치에 훨씬 덜 민감하며, 고차원 데이터에서 효과적입니다.
추천 상황: GPS 위치 기반 배달 구역 설정, 격자형 공간 분석

③ 민코프스키 거리 (Minkowski Distance) "거리 계의 카멜레온"

개념: 유클리디안과 맨하탄 거리를 $p$라는 값 하나로 조절할 수 있도록 일반화한 범용 공식입니다.
특징: p=1이면 맨하탄 거리, p=2이면 유클리디안 거리로 변신합니다.

2. 방향과 패턴 중심 거리

값의 절대적인 크기(Scale)보다 '데이터가 향하는 방향이나 패턴'이 중요할 때 사용합니다.

① 코사인 거리 (Cosine Distance) "크기는 상관없어, 방향만 봐!"

개념: 두 벡터 사이의 '각도'를 이용해 유사도를 측정합니다. 두 데이터의 수치적 크기가 달라도 변화 추이나 패턴이 비슷하면 가깝다고 판정합니다.
특징: 0~2 사이의 값을 가집니다. (1 - 코사인 유사도)
- θ = 0° 는 두 값의 방향이 동일하므로 cosine_similarity = 1
- θ = 90°` 는 두 값의 방향이 직교하므로 `cosine_similarity = 0
- θ = 180°` 는 두 값의 방향이 반대이므로`cosine_similarity = -1
추천 상황: 고차원 텍스트 문서 유사도 분석, 추천 시스템, 센서 데이터의 변화 추이 분석

② 자카드 거리 (Jaccard Distance) "공통 원소의 비율"

개념: 두 집합이 얼마나 겹치는지(교집합/합집합 비율)를 기반으로 잰 자카드 유사도의 반대(보수) 개념입니다.
특징: 0과 1 사이의 값을 가지며, 범주형 데이터나 One-Hot 인코딩된 데이터에 매우 강력합니다.
추천 상황: 고객 구매 상품 바구니 유사도 분석, 유전자 서열 비교

3. 통계적 / 특수 목적 거리

데이터의 분포 형태나 특수한 비즈니스 규칙을 반영해야 할 때 꺼내 드는 마스터 키입니다.

① 마할라노비스 거리 (Mahalanobis Distance) "데이터 분포 고려하기"

개념: 단순히 두 점 사이의 거리만 보지 않고, 데이터의 전체적인 분포 형태(공분산)를 고려합니다. "이 데이터가 전체 군집 뭉치 안에서 실제로 일어날 법한 위치에 있는가?"를 따집니다.
추천 상황: 변수 간 상관관계가 깊을 때, 이상치 탐지(Anomaly Detection) 및 불량 탐지

② 체비셰프 거리 (Chebychev Distance) "단 하나라도 어긋나면 불량!"

개념: 여러 차원의 차이 값 중 '가장 차이가 큰 단 하나의 최댓값'만을 거리로 봅니다. 체스판의 킹이 사방으로 움직일 때 드는 최소 턴 수와 같습니다.
수식: $d = \max(|x_1 - x_2|, |y_1 - y_2|)$
추천 상황: 단 하나의 기준이라도 한계치를 초과하면 안 되는 엄격한 품질 검사(QC)

③ 리벤슈테인 거리 (Levenshtein Distance) "글자 편집 거리"

개념: 수치가 아닌 '문자열' 사이의 거리를 측정합니다. 한 단어를 다른 단어로 바꾸기 위해 몇 번의 수정(삽입, 삭제, 교체)이 필요한지 횟수를 잰 것입니다.
추천 상황: 제품 일련번호/모델명 오타 분석, 공정 단계 코드의 유사성 비교

[한눈에 보는] 목적별 거리 추천 치트키 리스트

분석 상황 및 데이터 특징	추천 거리 알고리즘	한 줄 채택 이유
일반적인 숫자 데이터 (키, 몸무게 등)	유클리디안	가장 직관적이며 K-means의 기본 패러다임
이상치(노이즈)의 영향을 줄이고 싶을 때	맨하탄	절댓값 기반 합산으로 극단값 왜곡에 강함
변수 간 상관관계 분석, 이상치 탐지	마할라노비스	데이터의 분포(공분산) 형태까지 똑똑하게 반영
단 하나라도 기준치를 초과하면 불량 처리할 때	체비셰프	차원 중 가장 큰 오차 하나만 골라내는 엄격함
문자열 오타 검사, 공정 코드 비교	리벤슈테인	편집 횟수(삽입/삭제) 기반의 문자열 전용 거리
데이터 크기보다 변화 패턴/추이가 중요할 때	코사인	벡터의 크기 스케일을 무시하고 오직 '방향'만 비교
구매 품목 리스트, 카테고리 집합 비교	자카드	교집합과 합집합 비율을 이용한 이진 데이터 최적화

클러스터링 문제해결 6단계 가이드북

정답이 없는 비지도학습인 만큼, 각 단계마다 나침반 역할을 해줄 주의사항을 함께 체크하는 것이 핵심입니다.

단계	데이터 엔지니어가 해야 할 일	⚠️ 반드시 체크해야 할 주의사항
1. 문제 정의	"왜 이 군집을 찾으려 하는가?"에 대한 비즈니스 목표를 명확히 세웁니다.	"군집을 몇 개로 나눌까?"라는 기술적 수치보다 분석의 목적이 언제나 먼저여야 합니다.
2. 데이터 전처리	수집된 데이터의 결측치를 처리하고, 범위를 맞추는 스케일링(Scaling)을 수행합니다.	클러스터링은 '거리' 기반 알고리즘이기 때문에 데이터의 스케일에 매우 민감합니다.
3. 알고리즘 선택	데이터의 모양(원형인지, 밀집 형태인지), 크기, 목적에 맞는 최적의 알고리즘을 선택합니다.	데이터의 분포 특성에 따라 K-Means, DBSCAN 등 궁합이 맞는 알고리즘이 다릅니다.
4. 학습 & K 결정	선택한 모델을 학습시키고, 최적의 군집 수(K)를 탐색합니다.	엘보우 방법(Elbow Method)이나 실루엣 분석(Silhouette) 같은 시각적·통계적 도구를 활용합니다.
5. 군집 평가	나뉜 군집들이 통계적으로 의미 있게 잘 분리되었는지 품질을 검증합니다.	지도학습과 달리 정답 시험지가 없으므로, 군집 내부 응집도와 군집 간 분리도를 상대적으로 비교해야 합니다.
6. 해석 및 활용	완성된 각 군집의 특성을 분석하여 비즈니스에 적용할 액션 아이템(Action Item)을 도출합니다.	여기에 현업의 도메인 지식이 결합되어야 비로소 인공지능 기술이 진짜 돈이 되는 가치를 발휘합니다.

01. 계층적 군집화(Hierarchical Clustering)란?

"가장 비슷한 것 두 개를 묶고, 또 비슷한 것끼리 묶고… 이 과정을 나무처럼 기록하자."

계층적 군집화는 데이터 간의 거리를 계산하여 나무 모양의 계층 구조(Dendrogram)를 만들어가는 방식입니다. 처음부터 "3개로 쪼개줘!"라고 요구하는 것이 아니라, 데이터를 밑바닥부터 혹은 꼭대기부터 차근차근 연결해 나가며 전체적인 지도를 그리는 방법론입니다.

02. 계층적 군집화의 치트키, '덴드로그램(Dendrogram)'

계층적 군집화 결과물을 시각화한 나무 모양의 도표를 '덴드로그램'이라고 부릅니다.

사후에 K를 결정하는 유일한 구조 ✂️: 덴드로그램의 가장 강력한 장점입니다. 처음엔 군집 개수를 몰랐더라도, 완성된 나무 그림을 본 뒤 "어떤 높이(거리)에서 가로로 자르느냐"에 따라 최종 군집 개수를 분석가가 나중에 자유롭게 결정할 수 있습니다.

⚙️ 03. 계층적 군집화의 2가지 방향 (동작 과정)

데이터를 묶어나가는 방향에 따라 크게 두 가지 방식으로 나뉩니다. 실무에서는 보통 밑바닥부터 합쳐 나가는 상향식(Bottom-up) 방식이 가장 널리 쓰입니다.

① 통합 계층 군집화 (Agglomerative, 상향식) ⭐

Step 1 (맨 아래): 모든 데이터 포인트가 각자 1개짜리 독립된 군집으로 시작합니다. (데이터가 100개면 군집도 100개)
Step 2: 가장 거리가 가까운(비슷한) 두 군집을 찾아서 하나로 병합합니다.
Step 3: 모든 데이터가 거대한 하나의 군집(맨 위)으로 뭉칠 때까지 이 과정을 반복하며 연결된 높이(거리)를 기록합니다.
Step 4: 분석가가 원하는 군집 수가 되는 최적의 높이에서 싹둑 잘라 최종 그룹을 얻습니다.

② 분할 계층 군집화 (Divisive, 하향식)

개념: 통합 계층과 정확히 반대로 작동합니다. 처음에는 전체 데이터를 하나의 커다란 군집(맨 위)으로 파악한 뒤, 아래로 내려가며 가장 이질적인 데이터들을 쪼개어 결국 개별 포인트(맨 아래)로 끝이 납니다.

04. 군집을 묶는 4가지 주요 연

결 방식 (Linkage)

계층적 군집화에서는 점과 점 사이의 거리뿐만 아니라, '이미 만들어진 군집과 군집 사이의 거리'를 어떻게 측정하느냐에 따라 나무의 모양과 결과가 완전히 달라집니다. 대표적인 4가지 연결 방식이 있습니다.

단일 연결법 (Single Linkage): 두 군집의 멤버 중 가장 가까운 점들 사이의 거리를 기준으로 병합 (사슬 모양으로 길게 늘어지는 경향이 있음)
완전 연결법 (Complete Linkage): 두 군집의 멤버 중 가장 먼 점들 사이의 거리를 기준으로 병합 (둥글고 촘촘한 군집이 형성됨)
평균 연결법 (Average Linkage): 두 군집 내의 모든 점 사이의 거리 평균을 기준으로 병합 (이상치에 비교적 강건함)
와드 연결법 (Ward's Linkage): 군집을 합쳤을 때 군집 내부의 오차 제곱합(Variance)이 가장 최소가 되는 방향으로 병합 (크기가 균등한 군집을 만드는 데 탁월하여 실무에서 선호)

01. K-means 알고리즘이란?

K-means는 데이터를 중심점(Centroid)과의 평균 거리를 기반으로 K개의 군집으로 나누는 대표적인 분리형 군집화 방법입니다.

철저한 분리형: 어떤 데이터 포인트도 두 개 이상의 클러스터에 동시에 속할 수 없습니다. (무조건 한 팀에만 소속)
인간의 개입(K): 몇 개의 그룹으로 나눌지 뜻하는 $K$는 사용자가 직접 지정해 주어야 하는 하이퍼파라미터입니다.
알고리즘의 목적: 최적의 중심점(Centroid) 위치를 찾고, 각 데이터를 가장 알맞은 군집에 할당(Membership 최적화)하는 것입니다.

⚙️ 02. K-means 작동 원리 5단계

작동 방식을 초등학교 '운동회 팀 나누기'에 비유해 보면 아주 쉽습니다.

Step 1: 군집 개수(K) 설정 ➡️ 데이터를 몇 개로 쪼갤지 결정합니다. (예: $K=3$)
Step 2: 초기 중심점(Centroid) 설정 ➡️ 공간 상에 무작위 혹은 수동으로 $K$개의 임의의 중심점을 뿌립니다.
Step 3: 데이터를 군집에 할당 ➡️ 모든 데이터 포인트는 자신과 가장 가까운 거리(유클리디안 거리 기준)에 있는 중심점의 군집으로 소속됩니다.
Step 4: 중심점 재설정(갱신) ➡️ 소속이 완료되면, 각 군집에 모인 데이터들의 평균값(무게중심)을 계산해 중심점을 그 위치로 새로 이동시킵니다.
Step 5: 수렴할 때까지 반복 ➡️ 데이터의 소속이 바뀌지 않고, 중심점의 이동이 멈출 때까지 Step 3과 Step 4를 끊임없이 반복합니다.

03. 최적의 군집 개수(K)를 찾는 2가지 치트키

K-means를 쓸 때 가장 고심하게 되는 "$K$를 몇으로 해야 하지?"라는 질문은 아래 두 가지 수학적 도구로 명쾌하게 해결할 수 있습니다.

① 엘보우 방법 (Elbow Method) "꺾이는 팔꿈치를 찾아라"

원리: K를 1부터 차례대로 늘려가며 군집 내 거리 제곱합(Inertia 또는 WCSS)을 측정합니다.
해석: K가 커질수록 오차는 당연히 줄어들지만, 어느 순간부터는 K를 늘려도 오차가 별로 안 줄어드는 급격한 꺾임 지점(팔꿈치 모양)이 나타납니다. 그 지점이 가장 효율적인 최적의 K입니다.

② 실루엣 분석 (Silhouette Score) "얼마나 군집끼리 잘 떨어져 있나"

원리: 내가 속한 군집 안의 데이터들과는 얼마나 가깝고, 이웃한 다른 군집의 데이터들과는 얼마나 멀리 떨어져 있는지를 수치화합니다.
해석: -1에서 1 사이의 값을 가지며, 1에 가까울수록 군집화가 완벽하게 잘 분리되었다는 뜻입니다. 실루엣 점수가 가장 높은 K를 선택합니다.

⚖️ K-means 알고리즘의 장점과 한계

확실한 장점 (왜 실무에서 가장 먼저 쓸까?)

압도적인 속도와 효율성: 계산 비용(시간과 메모리)이 적게 들어 대용량 데이터나 고차원 데이터도 순식간에 클러스터링합니다.
단순함: 구조가 아주 직관적이고 간단하여 빠르게 구현하고 결과를 해석하기에 좋습니다.

명확한 한계 (이럴 땐 쓰면 안 돼요!)

사전 K 지정의 한계: 데이터 특성을 모르면 적절한 $K$값을 잡기 어렵습니다.
초기 값에 대한 민감도: 처음에 주장을 무작위로 어디에 세우느냐에 따라 최종 클러스터링 결과가 판이하게 달라질 수 있습니다.
형태의 제약: 유클리디안 거리(직선거리) 기반으로 균등하게 동그라미를 그리며 묶기 때문에, 데이터가 길쭉하거나, 초승달 모양이거나, 군집별 밀도가 다르면 엉망으로 묶어버립니다.
이상치(Outlier)에 취약: 평균값을 기반으로 중심을 이동하므로, 저 멀리 뜬금없는 외딴섬 데이터(이상치) 하나 때문에 중심점이 엉뚱한 곳으로 끌려갈 수 있습니다.

⚡ 01. DBSCAN이란?

DBSCAN은 데이터 포인트가 밀집된 영역을 감지하여 클러스터로 정의하는 알고리즘입니다. 즉, 데이터가 가깝게 모여 있는 빽빽한 지역은 하나의 그룹으로 묶고, 텅 빈 지역에 외롭게 떨어져 있는 점들은 과감하게 '노이즈(소음/쓰레기 데이터)'로 분류해 버립니다.

K-means vs DBSCAN 한눈에 비교하기

특성	K-means	DBSCAN
클러스터 개수 (K)	사람이 미리 지정해야 함	데이터 밀도에 따라 자동으로 결정
클러스터 형태	구형(동그라미)만 가능	임의의 기하학적 형태 모두 가능
노이즈(이상치) 처리	불가능 (중심점이 노이즈에 끌려감)	탁월함 (노이즈는 그룹에서 아예 배제)
하이퍼파라미터	군집 개수(k)	반지름(eps), 최소 이웃 수(min_samples)

⚙️ 02. DBSCAN의 핵심 뼈대: 2대 파라미터와 3대 포인트

DBSCAN을 돌리기 위해 인간이 지정해 주어야 하는 핵심 설정값(하이퍼파라미터)은 딱 두 가지입니다.

eps (Epsilon): "내 주변을 반지름 몇 m 안까지 탐색할까?" ➡️ 이 반경 안에 들어와야 이웃으로 인정합니다.
min_samples: "이웃이 최소 몇 명 이상 모여 있어야 '우리 무리(군집)'로 인정할까?"

이 두 가지 기준을 가지고 컴퓨터는 데이터 공간 내의 모든 점을 딱 3가지 신분으로 분류합니다.

코어 포인트 (Core Point)
- 내 주변(반지름 eps 안)에 이웃 데이터가 min_samples 개수 이상으로 빽빽하게 찬 완벽한 중심점입니다.
보더 포인트 (Border Point)
- 내 주변에는 이웃이 기준치만큼 많지는 않지만, 내 이웃 중에 코어 포인트가 살고 있어서 슬쩍 같은 그룹으로 인정받는 언저리 점입니다.
노이즈 포인트 (Noise Point)
- 코어 포인트도 아니고, 그렇다고 주변에 코어 포인트가 살지도 않아서 어떤 군집에도 속하지 못하고 혼자 덩그러니 남겨진 이상치입니다.

03. DBSCAN은 어떻게 작동할까요? (진행 과정)

공간 내에서 임의의 데이터 포인트를 하나 콕 집습니다.
그 점을 중심으로 반지름 eps 만큼 원을 그려 이웃이 몇 개인지 셉니다.
만약 이웃 수가 min_samples 이상이면 그 점을 '코어 포인트'로 승격시키고 첫 번째 클러스터를 생성합니다. (만약 기준 미달이면 일단 노이즈 포인트로 둡니다.)
새로 만든 클러스터에 포함된 이웃 점들을 방문해 똑같이 원을 그립니다. 거기서 또 코어 포인트가 발견되면 그 이웃들의 무리까지 전부 하나의 거대한 클러스터로 강제 통합(릴레이 확장)합니다.
이 군집의 확장이 끝날 때까지 2~4번 과정을 계속 반복하며 촉수를 뻗어나갑니다.
모든 데이터 포인트가 코어, 보더, 노이즈 중 하나의 신분을 얻을 때까지 이 전체 과정을 반복합니다.

⚖️ DBSCAN의 명확한 장점과 한계

이럴 때 쓰면 치트키입니다

클러스터 개수를 전혀 감 잡을 수 없을 때
데이터가 초승달 모양이나 둥근 고리 모양 등 불규칙하고 복잡한 기하학적 형태를 띨 때
데이터에 이상치나 결측치, 노이즈가 유난히 많아 정제가 피곤할 때

이런 데이터에선 힘을 못 씁니다

밀도가 들쭉날쭉한 데이터: 어떤 군집은 엄청 조밀하고, 어떤 군집은 엄청 느슨하게 퍼져 있다면 eps 단 하나로 두 군집을 동시에 잡아낼 수 없어 성능이 처참해집니다.
파라미터 설정의 늪: eps 값을 너무 작게 주면 온 세상 점이 다 노이즈가 되고, 너무 크게 주면 모든 데이터가 거대한 하나의 덩어리로 묶입니다. 적정 수준을 찾는 데 시행착오와 도메인 지식이 꽤 필요합니다.

[내일배움캠프-본캠프] QA/QC 26/06/22

dudgus4943 — Mon, 22 Jun 2026 20:57:23 +0900

✏️ 01. 학습 (Training): 모델이 '정답'을 찾아가는 과정

"학습의 핵심은 '내가 얼마나 틀렸는가'를 스스로 아는 것부터 시작합니다."

① 손실 함수 (Loss Function) : "현재 모델이 얼마나 틀렸나?"

모델이 예측한 값과 실제 정답 사이의 차이(오차)를 수치화하는 함수입니다.

공정 비유: 제품 설계 치수와 실제 생산된 치수 사이의 '오차'와 같습니다. 당연히 이 오차 값이 0에 가까울수록 모델의 성능이 좋다는 뜻이겠죠? (대표적인 지표: RMSE, MAE 등)

② 경사 하강법 (Gradient Descent) : "오차를 줄이려면 어느 방향으로 가야 하나?"

손실 함수의 값을 최소화(오차를 최소화)하기 위해 모델의 내부 파라미터(가중치)를 조금씩 업데이트하는 알고리즘입니다.

등산 비유: 마치 안개가 자욱한 산속에서 가장 낮은 골짜기(오차가 0인 지점)를 찾기 위해, 발밑의 경사(Gradient)를 확인하며 한 걸음씩 조심스럽게 내려가는 과정과 같습니다.

02. 특성 공학 (Feature Engineering): 데이터에 생명력 불어넣기

"Raw Data를 그대로 모델에 넣는 것은, 요리하지 않은 생쌀을 먹으라고 하는 것과 같습니다."

① 스케일링 (Scaling) : 수치 범위 맞추기

데이터의 단위와 범위를 일정하게 맞춰주는 작업입니다.

왜 하나요? 온도(20~30°C)와 압력(1000~2000Pa)처럼 단위 차이가 크면, 모델은 숫자가 큰 압력 데이터가 훨씬 중요하다고 착각합니다. 학습이 한쪽으로 치우치는 것을 막기 위해 단위를 통일해야 합니다.
방법: 0과 1 사이로 맞추는 Min-Max Scaling, 평균 0과 표준편차 1로 만드는 Standardization(표준화) 등이 있습니다.

② 특성 생성 및 선택 (Creation & Selection)

특성 생성 (Creation): 기존 데이터를 조합해 새로운 결정적 단서를 만듭니다. 예를 들어, '가공 온도'와 '가공 시간'을 곱해 '총 투입 열량'이라는 새로운 지표를 만드는 것이죠. 이 새로운 데이터가 불량 예측에 더 결정적인 역할을 하기도 합니다.
특성 선택 (Selection): 불량 예측과 전혀 상관없는 데이터(예: 작업자의 사번 등)는 과감히 삭제하여 모델이 혼란스럽지 않게 만듭니다.

️ 03. 튜닝 (Tuning): 모델의 '체질'을 개선하는 과정

"모델이 공부(학습)를 잘할 수 있도록 최적의 환경을 설정해 주는 단계입니다."

학습을 본격적으로 시작하기 전, 우리는 '파라미터'와 '하이퍼파라미터'의 차이를 알아야 합니다.

파라미터 (Parameter): 모델이 데이터를 공부하면서 스스로 찾아내는 최적의 값 (예: 가중치, 편향)
하이퍼파라미터 (Hyperparameter): 모델이 학습하기 전에 사람(사용자)이 직접 지정해 주는 설정값 (예: 학습률, 배치 사이즈, 트리의 최대 깊이 등)

Python

# 랜덤 포레스트 하이퍼파라미터 설정 예시
RandomForestClassifier(
    n_estimators=100,      # 숲에 만들 트리 개수
    max_depth=10,          # 각 트리의 최대 깊이
    min_samples_split=2,   # 분할하기 위한 최소 샘플 수
    max_features='sqrt'    # 분할 시 고려할 특성(Feature) 수
)

그리드 서치 (Grid Search) : "최적의 레시피 조합 찾기"

사람이 지정해야 하는 하이퍼파라미터 후보군들을 격자(Grid) 형태로 미리 정해두고, 하나씩 전부 대입해 보며 최상의 결과를 찾는 방식입니다.

공정 비유: 현장에서 최적의 열처리 조건인 [온도(100도, 110도, 120도)] x [압력(10, 20, 30기압)] 조합을 모두 실험해 보고 가장 불량률이 낮은 조건을 찾아내는 '노가다(?)' 과정과 똑같습니다.

04. 평가 (Evaluation): 모델의 '실전 실력' 검증

"공부를 마친 모델이 새로운 시험지에서도 문제를 잘 푸는지 확인하는 단계입니다."

검증의 핵심 ⚠️: 반드시 학습(공부)에 사용하지 않은 '테스트 데이터(Test Data)'를 사용해야 합니다. 기출문제를 달달 외워서 백점을 맞은 건지, 진짜 원리를 이해해서 응용문제를 잘 푸는 건지 확인해야 하기 때문입니다.
단순히 정답을 맞힌 개수(정확도)만 보는 것이 아니라, 앞서 언급한 손실 함수(Loss) 값이 충분히 낮아졌는지, 그리드 서치로 찾은 설정값이 다른 새로운 데이터에서도 일관된 성능을 내는지 종합적으로 판단하여 최종 모델을 배포하게 됩니다.

01. 과적합(Overfitting)이란?

"우리 공장 샘플 데이터는 100% 맞히는데, 옆 공장 데이터나 내일 생산 데이터는 하나도 못 맞히는 상황"

과적합은 모델이 학습 데이터에만 너무 과하게(Over) 맞춰져서(Fitting), 실제 현장에서 새로운 데이터를 만났을 때(Generalization) 엉터리 대답을 하는 현상을 말합니다.

⚠️ 과적합이 발생하는 3가지 핵심 이유

학습 데이터의 부족 및 다양성 결여
- 데이터가 너무 적으면 다양한 패턴을 배우지 못합니다.
- 예시: 고양이의 정면 사진만 보고 학습한 모델은, 고양이의 옆모습 사진을 보면 고양이인지 판단하지 못합니다.
모델의 복잡도가 너무 높을 때
- 너무 강력하고 복잡한 모델을 사용하면, 데이터의 본질적인 흐름을 읽는 게 아니라 아주 미세한 노이즈(잔볏)까지 전부 반영하려고 구불구불한 복잡한 공식을 만들어 냅니다. 학습 데이터는 완벽히 설명할지 몰라도 조금만 데이터가 달라지면 에러를 뿜어냅니다.
학습을 너무 오래 했을 때 (원리 이해가 아닌 단순 암기)
- 모델이 지나치게 오랫동안 학습을 반복하면 데이터의 규칙을 이해하는 게 아니라 데이터 자체를 통째로 외워버리는 상태가 됩니다. 시험공부를 할 때 기출문제의 '원리'를 파악하지 않고 '답'만 외워서 시험장에 들어가는 것과 유사합니다.

️ 02. 과적합 방지(Preventing Overfitting): 암기 과목 탈피하기

인공지능이 융통성 없이 '단순 암기'에 빠지지 않도록 체질을 개선하는 대표적인 기법 3가지를 소개합니다.

① 규제 (Regularization: L1, L2) 모델 가중치에 벌칙 주기

모델이 특정 데이터에 너무 과하게 몰입하지 않도록, 내부 가중치(Weights)가 너무 커지면 벌금(패널티)을 부과하는 방법입니다.

L1 규제 (Lasso): 중요하지 않은 특성의 가중치를 아예 0으로 만들어 버립니다. 모델의 뼈대만 남기는 '다이어트' 효과가 있어 핵심 변수만 보게 합니다.
L2 규제 (Ridge): 가중치들을 전체적으로 골고루 작게 만듭니다. 특정 데이터에 너무 민감하게 널뛰지 않도록 모델의 선을 '부드럽게' 깎아줍니다.

② 교차 검증 (Cross-Validation) 시험지 돌려막기

데이터를 처음에 딱 한 번만 나누어 학습하면 특정 데이터 조각에만 강한 편식 모델이 될 수 있습니다. 이를 막기 위해 데이터를 여러 번 쪼개어 번갈아 가며 검증합니다.

K-Fold 교차 검증: 데이터를 동일한 크기의 K개 조각으로 나눈 뒤, 1번부터 K번 조각까지 돌아가면서 차례대로 '시험지(Validation Set)' 역할을 맡깁니다. 편법이 통하지 않도록 시험지를 계속 바꾸는 셈이죠.

③ 드롭아웃 (Dropout) 일부러 몇 명 재우기 (딥러닝의 경우)

원리: 신경망을 학습시킬 때, 매 단계마다 일부 뉴런(신경망 노드)을 무작위로 쉬게(끄게) 만드는 기법입니다.
효과: 특정 에이스 뉴런(경로)에만 의존하지 않고, 남은 뉴런들이 각자 똑똑해지도록 강제하기 때문에 모델 전체의 자생력과 협동 능력이 커집니다.

00. 왜 머신러닝(ML)을 배워야 할까요?

복잡한 패턴의 발견: 기존 규칙 기반(Rule-based) 방식은 "온도가 80도를 넘으면 불량"이라는 단순한 조건만 봅니다. 반면 머신러닝은 "온도가 75도여도 습도가 90%이고 압력이 낮아지는 '특정 조합'이 발생하면 불량이다"라는 데이터 중심(Data-driven)의 복합적 패턴을 찾아냅니다.
사전 예방(예지 보전): 장비의 미세한 진동을 감지해 고장 전 정비 신호를 보내거나, 공정 중간 데이터로 최종 합격 여부를 미리 예측해 비용을 아낍니다.
비정형 데이터 활용: 비전(Vision) 검사를 통해 숙련공이 눈으로 보던 제품 표면의 결함을 AI가 24시간 일정한 기준으로 정확하게 찾아냅니다.

Step 1. 문제 정의 및 목표 설정 (Problem Definition)

"어떤 요리를 만들지(한식? 양식?) 결정하고, 손님에게 '맛있다'는 소리를 듣는 성공 지표를 세우는 단계"

프로젝트의 성공 기준을 설정하는 가장 중요한 단계입니다. 단순히 "모델 성능을 높이겠다"가 아니라, 명확한 비즈니스 목표와 평가지표를 일치시켜야 합니다.

예시: "사출 공정에서 발생하는 미성형 불량률을 현재 5%에서 2%로 낮추겠다."

Step 2. 데이터 수집 및 전처리 (Data Acquisition & Preprocessing)

"Garbage In, Garbage Out (쓰레기가 들어가면 쓰레기가 나온다)"

데이터의 품질이 곧 모델의 성능을 결정합니다. 센서(IoT), DB, API, 웹 크롤링 등으로 수집한 원본 데이터(Raw Data)는 '생쌀'과 같아서 반드시 가공(요리)해야 합니다.

① 데이터 정제 (Cleaning)

누락값(결측치) 처리: 평균, 중간값, 최빈값으로 채우거나 해당 행을 제거합니다.
중복 데이터 제거: 분석 결과의 왜곡을 막기 위해 중복 원인을 파악하고 지웁니다.
이상치(Outlier) 처리: 다른 데이터와 크게 벗어난 값을 식별해 제거하거나 보정합니다.

② 데이터 변환 (Transformation)

피처 스케일링(Scaling): 온도(20~30)와 압력(1000~2000)처럼 단위 차이가 크면 모델이 혼란스러워하므로, 범위를 맞추는 작업입니다. (0~1로 맞추는 정규화 또는 평균 0, 분산 1로 만드는 표준화 사용)
인코딩(Encoding): '남성/여성' 같은 범주형 데이터를 머신러닝이 이해할 수 있도록 숫자(0, 1)나 원-핫 인코딩(One-Hot Encoding) 형태로 변환합니다.

Step 3. 탐색적 데이터 분석 (EDA)

"냉장고 재료를 꺼내 상한 곳은 없는지, 서로 궁합은 좋은지 뜯어보는 과정"

단순히 통계 수치를 보는 것을 넘어, 데이터 속에서 [Fact 도출] ➡️ [의미 파악(Insight)] ➡️ [모델링 액션(Action)]을 찾아내는 과정입니다.

EDA에서 발견한 사실 (Fact)	도출된 인사이트 (Insight)	모델링을 위한 액션 (Action)
습도가 70% 이상일 때 불량률 급증	"습도가 제품 내구성에 결정적인 변수구나!"	습도 데이터를 핵심 피처로 포함
특정 작업자 A가 근무할 때만 데이터 누락	"결측치가 무작위가 아니라 특정 환경 탓이군."	단순히 평균값으로 채우지 않고 별도 처리
온도가 오르면 불량이 늘다가 특정 온도에선 줄어듦	"온도와 불량률은 직선이 아닌 비선형 관계구나."	선형 회귀 대신 복잡한 결정 트리 계열 모델 선택

️ Step 4. 모델 유형 선택 및 학습 (Model Training)

① 모델 유형 및 데이터 분할

예측하려는 문제가 분류(Classification)인지 회귀(Regression)인지에 따라 알고리즘을 선택합니다.
데이터를 학습 데이터(70~80%)와 테스트 데이터(20~30%)로 분할하여 학습을 시작합니다.
내부 파라미터(가중치와 편향)의 시작점을 정해주는 '초기화' 과정을 거친 뒤, 오차를 줄여나가는 경사하강법을 통해 반복 학습(에포크)을 진행합니다. 과적합 조짐이 보이면 조기 종료(Early Stopping)를 적용합니다.

② 핵심 중의 핵심: 베이스라인(Baseline) 모델 만들기

처음부터 100점짜리 복잡한 딥러닝 모델을 만들려고 하면 안 됩니다. 가장 단순한 알고리즘으로 60점짜리 기준점(Baseline)을 빠르게 구해야 합니다.

이유: 전체 파이프라인이 잘 도달하는지 확인하고, 나중에 복잡한 모델을 도입했을 때 "기본 모델보다 성능이 얼마나 좋아졌는가?"를 증명하는 강력한 커뮤니케이션 도구가 됩니다.

Step 5. 모델 평가 방법 (Evaluation)

손님에게 요리를 내놓기 전 최종 맛검사를 하듯 학습에 쓰이지 않은 시험지(테스트 데이터)로 성능을 평가합니다.

회귀 문제 지표: MSE(오차 제곱 평균), MAE(오차 절대값 평균), $R^2$(결정계수, 설명력)
분류 문제 지표: 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score(정밀도와 재현율의 조화평균), ROC-AUC

️ Step 6. 하이퍼파라미터 튜닝 (Hyperparameter Tuning)

"음식의 맛을 극대화하기 위해 마지막에 명란 한 스푼, 레몬즙 킥을 넣는 미세 조정"

사람이 직접 설정해야 하는 모델의 최적 설정값(트리 개수, 학습률 등)을 찾는 과정입니다.

그리드 서치 (Grid Search): 모든 후보 조합을 격자 형태로 다 대입하는 정석적인 방법 (시간이 오래 걸림).
랜덤 서치 (Random Search): 무작위로 조합을 뽑아 평가 (그리드 서치보다 효율적).
베이지안 최적화 (Bayesian Optimization): 이전 결과를 바탕으로 다음번 튜닝값을 똑똑하게 찾아가는 방법 (가장 효율적).

Step 7. 모델 배포 및 유지 보수 (Deployment & Monitoring)

정성껏 만든 요리를 드디어 손님 식탁에 올리고 피드백을 받는 최종 단계입니다.

환경 설정 & 패키징: 모델이 돌아갈 서버 환경을 구축하고, 어디서든 똑같이 실행되도록 라이브러리와 모델을 하나로 묶어 컨테이너화(Docker 등)합니다. (밀키트 포장)
API 개발: 외부 시스템이 모델에게 데이터를 보내면 바로 답변을 받을 수 있도록 통로(RESTful API)를 뚫어줍니다. (주문 키오스크 설치)
테스트 & 실전 배포: 시식회(최종 테스트)를 거쳐 실전 서버에 올립니다.
모니터링 및 재학습: 배포 후에도 시간이 지나며 공정 환경이 변하면 모델의 성능이 떨어집니다. 지속적으로 모니터링을 하며 데이터를 모아 주기적으로 모델을 다시 학습(Retraining)시키는 유지 보수가 필수적입니다.

[내일배움캠프-본캠프] QA/QC 26/06/19

dudgus4943 — Fri, 19 Jun 2026 21:00:03 +0900

안녕하세요! 오늘은 머신러닝에서 예측 성능을 끌어올릴 때 절대 빠지지 않고 등장하는 핵심 개념, '앙상블 모델(Ensemble Model)'에 대해 쉽고 깔끔하게 정리해 보려고 합니다.

중요한 결정을 내릴 때 여러 전문가의 의견을 모으듯, 머신러닝에서도 여러 개의 모델을 합치면 훨씬 강력한 힘을 발휘하는데요. 앙상블의 기본 개념부터 대표적인 두 가지 줄기인 배깅(Bagging)과 부스팅(Boosting)까지 핵심만 쏙쏙 뽑아 전해드립니다!

01. 앙상블 모델이란?

"여러 명의 전문가가 모여 의견을 내는 것이, 한 명의 전문가보다 더 나은 결과를 낸다."

앙상블 모델은 한 마디로 '집단지성'을 활용한 머신러닝 기법입니다. 마치 중요한 수술을 앞두고 여러 의사의 소견을 종합해 최종 결정을 내리는 것처럼, 여러 개의 기초 모델(Weak Learner)의 예측을 결합하여 더 정확하고 안정적인 최종 예측을 도출하는 방법입니다.

02. 복원 추출로 독립적인 학습을! '배깅 (Bagging)'

배깅(Bootstrap AGGregatING)은 원래 데이터셋에서 무작위로 여러 번 샘플링(복원 추출)하여 다양한 데이터셋을 만들고, 각각의 데이터셋에 대해 모델을 '독립적'으로 학습시키는 방식입니다. 여러 의사가 각자 다른 임상 경험을 바탕으로 독립적으로 진단을 내리는 것과 유사합니다.

대표 주자: 랜덤 포레스트 (Random Forest)

독립적 학습: 여러 개의 결정 트리(Decision Tree)를 독립적으로 학습시킵니다.
다양성 확보: 각 트리가 서로 다른 데이터와 특성(Feature) 조합을 사용하므로, 서로의 약점을 잘 보완해 줍니다.

03. 오답을 오답노트처럼 보완한다! '부스팅 (Boosting)'

부스팅(Boosting)은 배깅처럼 독립적으로 학습하지 않고, '순차적'으로 모델을 개선해 나가는 방식입니다. 이전 모델이 잘못 예측한 데이터에 더 많은 가중치(오답 노트)를 두어 다음 모델이 이를 집중적으로 학습하게 만듭니다. 마치 의사가 이전의 잘못된 진단 케이스를 공부하며 진단 능력을 업그레이드하는 과정과 비슷합니다.

⚡ 대표 주자: XGBoost, LightGBM (LGBM)

오차 보완: 앞선 모델의 실수를 만회하는 방향으로 끊임없이 진화합니다.
실무 압도적 활용: 높은 예측 성능을 자랑하기 때문에, 데이터 분석 대회(Kaggle 등)나 실무에서 가장 널리 사용됩니다.

앙상블 모델의 장단점 한눈에 보기

분류	주요 특징
장점	• 안정성과 강건함: 여러 모델의 의견을 모으므로 예측이 흔들리지 않습니다. • 과적합 방지: 모델이 과도하게 한쪽으로 치우치는(Overfitting) 위험을 줄여줍니다. • 압도적 성능: 단일 모델보다 훨씬 높은 예측 성능을 보여줍니다.
단점	• 리소스 소모: 학습과 예측에 더 많은 시간과 컴퓨터 자원이 필요합니다. • 해석의 어려움: 모델이 복잡해져 내부 구조를 한눈에 파악하기 어렵습니다 (Black Box). • 튜닝의 까다로움: 적절한 방법 선정과 하이퍼파라미터 튜닝이 필수적입니다.

02. 결정 트리(Decision Tree)란?

"머신러닝으로 즐기는 스무고개 게임!"

결정 트리는 의사결정 규칙을 나무(Tree) 형태로 도표화하여 데이터를 분류하거나 예측하는 모델입니다. 우리가 일상생활에서 선택을 고민할 때 "예/아니오"라는 질문을 던지며 답을 찾아가는 과정과 매우 유사합니다.

순차적 데이터 분할: 특정 기준에 따라 데이터를 연속적으로 쪼개며 최종 결론에 도달합니다.
노드(Node)의 역할: 각 내부 노드는 데이터의 특성(Feature)에 대한 조건을 나타내며, 이 조건의 만족 여부에 따라 데이터가 왼쪽 혹은 오른쪽 가지(Branch)로 분리됩니다.
언제까지 자랄까?: 트리는 미리 지정한 특정 종료 조건(최대 깊이, 노드 최소 샘플 수 등)에 도달할 때까지 반복해서 성장합니다.

02-1. 핵심 개념: 트리의 선택 기준, '불순도(Impurity)'

결정 트리가 똑똑한 질문을 던지려면 '어떤 특성'을 기준으로 데이터를 나눌지 결정해야 합니다. 이때 사용하는 기준이 바로 '불순도'입니다.

불순도란? 각 노드에서 데이터가 얼마나 서로 섞여 있는가를 측정하는 지표입니다.
불순도 = 0 (순수함): 해당 노드에 완전히 단일 클래스(예: 오직 '사과'만)의 데이터만 남은 상태입니다.
불순도 = 최대 (혼란함): 모든 클래스가 반반씩 균등하게 섞여 있어 구분이 안 되는 상태입니다.

대표적인 지표: 지니 계수 (Gini Index) & 엔트로피 (Entropy)

결정 트리는 이 불순도가 가장 크게 감소하는 방향(데이터가 가장 잘 깨끗하게 분류되는 방향)으로 특성과 분할 기준을 선택하며 성장합니다.

⚖️ 결정 트리의 장점과 단점

단독으로도 훌륭하지만 명확한 한계도 존재합니다. 장단점을 한눈에 비교해 볼까요?

장점	단점
• 뛰어난 해석력: 의사결정 과정을 시각적으로 표현할 수 있어 비전문가도 쉽게 이해할 수 있습니다. • 높은 유연성: 분류(Classification)와 회귀(Regression) 문제 모두에 사용할 수 있습니다. • 데이터 전처리 최소화: 수치형 데이터와 범주형 변수를 변환 없이 자연스럽게 처리합니다.	• 과적합(Overfitting) 위험: 트리가 너무 깊어지면 학습 데이터에만 과도하게 맞춰져 새로운 데이터 예측 능력이 떨어집니다. 해결 방법: 가지치기(Pruning) 트리의 최대 깊이를 제한하거나 불필요한 가지를 잘라내어 과적합을 방지합니다.

03. 랜덤 포레스트(Random Forest)란?

"다양한 시각을 가진 전문가들의 100% 투표 시스템"

랜덤 포레스트는 여러 개의 결정 트리(Decision Tree)를 만들고, 이들의 예측을 종합하여 최종 결론을 내리는 대표적인 배깅(Bagging) 방식의 앙상블 모델입니다.

만약 10,000개의 데이터가 있을 때, 이를 가지고 각기 다른 데이터와 특성을 학습한 10개, 100개의 독립적인 나무를 만듭니다. 각 나무가 무작위성(Random)을 바탕으로 서로 다른 관점에서 문제를 바라보기 때문에, 집단지성의 효과를 극대화할 수 있습니다.

⚙️ 03-1. 랜덤 포레스트의 핵심 작동 원리

랜덤 포레스트가 '무작위성'을 확보하는 비밀은 크게 두 가지 샘플링 과정에 있습니다.

① 복원 추출, '부트스트랩 샘플링 (Bootstrap Sampling)'

원본 데이터에서 중복을 허용하여 무작위로 여러 개의 학습 데이터셋을 만듭니다.

예시: 10,000명의 대출 데이터가 있다면, 각 트리는 무작위로 추출된 5,000개의 샘플로 학습합니다. 어떤 데이터는 여러 번 뽑히고, 어떤 데이터는 한 번도 안 뽑힐 수 있어 트리의 다양성이 확보됩니다.

② 특성의 무작위 선택 (Random Feature Selection)

데이터뿐만 아니라 '질문 거리(특성)'도 무작위로 제한합니다.

예시: 대출 심사에 필요한 특성이 총 20개(소득, 나이, 신용점수 등)라면, 분기점마다 무작위로 5개만 골라 그중 최적의 질문을 찾습니다.

③개별 트리의 학습

각 트리는 서로 다른 데이터와 특성으로 학습되므로, 다음과 같이 다양한 기준으로 판단할 수 있습니다.

- 트리 1: 소득과 DTI(총부채상환비율)를 중심적으로 평가
- 트리 2: 연체 이력과 LTV(주택담보대출비율)를 중심적으로 평가
- 트리 3: 신용점수와 직장 안정성을 주로 확인

④ 앙상블 예측 (Ensemble Prediction)

각 나무가 독립적으로 열심히 학습을 마치면, 드디어 최종 투표를 진행합니다.

분류 (Classification) 다수결 투표: 100개의 트리 중 65개가 '상환 가능'이라고 하면 최종 결과는 [상환 가능]
회귀 (Regression) 평균값: 각 트리가 예측한 값을 모두 더해 [평균 확률 65%]로 최종 결정

⚖️ 랜덤 포레스트의 장점과 단점

실무에서 치트키처럼 쓰이는 모델이지만, 금융권 등 특정 도메인에서는 치명적인 약점도 존재합니다.

강력한 장점

낮은 과적합 위험 & 안정성: 수많은 트리의 오답과 정답을 평균 내기 때문에 개별 트리의 오류가 상쇄되어 일반화 성능이 아주 뛰어납니다.
특성 중요도 제공: 어떤 변수(예: 소득 vs 나이)가 예측에 가장 큰 영향을 미쳤는지 수치로 쉽게 확인할 수 있습니다.
이상치(Outlier)에 강함: 숲 전체의 의견을 듣기 때문에 몇 개의 노이즈 데이터에 쉽게 흔들리지 않습니다.
대규모 데이터 최적화: 대용량 데이터에서도 안정적이며, 여러 트리를 동시에 만드는 병렬 처리(Parallel Processing)가 가능해 학습 효율이 좋습니다.

주의해야 할 단점

막대한 계산 비용: 트리를 수백 개씩 굴려야 하므로 단일 트리에 비해 메모리와 처리 시간이 훨씬 많이 필요합니다. (트리가 100개면 자원도 100배!)
해석의 어려움 (Black Box): "여러 요인을 종합적으로 고려했습니다" 외에 구체적인 이유를 설명하기 어렵습니다. 예를 들어 대출이 거절된 고객에게 정확한 사유를 논리적으로 설명해야 하는 금융 규제 환경에서는 치명적인 단점이 됩니다.
하이퍼파라미터 튜닝의 복잡: 최적의 성능을 내기 위해 트리 개수, 최대 깊이 등을 조절해야 하는데, 트리 개수를 100개에서 1,000개로 늘려가며 최적점을 찾는 과정은 꽤 많은 실험 시간(일명 노가다...)을 필요로 합니다.

⚡ 01. 부스팅(Boosting)이란?

부스팅은 '강화하다', '밀어 올리다'라는 뜻을 가집니다. 머신러닝에서는 맞추기 힘든 어려운 데이터에 집중하여, 약한 학습기(Weak Learner)들을 순차적으로 학습시켜 하나의 강력한 학습기(Strong Learner)를 만드는 방법입니다.

반도체 공정으로 이해하는 약한 학습기 vs 강한 학습기

약한 학습기 (단순한 모델): "전압이 기준치를 벗어나면 불량!"처럼 하나의 간단한 기준만 체크하는 단순 검사입니다. 완벽하지는 않지만, 완전히 찍는 것보다는 나은 수준입니다.
강한 학습기 (강력한 모델): 전압, 전류, 온도, 습도, 외관 등을 종합적으로 판단하여 불량품을 매우 정확하게 찾아내는 전문가 집단 인터뷰 같은 모델입니다.

⚙️ 02. 부스팅의 핵심 원리: '순차적 학습 (Sequential)'

부스팅은 모든 모델이 동시에 학습하지 않고, 앞선 모델의 결과를 보고 뒤선 모델이 이어받는 '릴레이' 방식입니다.

첫 번째 검사: 전압 테스트를 통해 불량품을 1차로 걸러냅니다.
두 번째 검사: 1차 검사를 통과한 제품(이전 모델이 놓친 데이터) 중 '온도 문제'가 있는 제품에 집중합니다.
세 번째 검사: 앞선 검사들을 다 통과한 제품 중 '크기 불량'을 집중적으로 잡아냅니다.

즉, 첫 번째 모델이 틀린 오답(실수)에 가중치를 두어 다음 모델이 이를 집중 학습하게 만드는 방식입니다.

️ 03. 부스팅 모델 종류 총정리

부스팅은 발전을 거듭하며 머신러닝 생태계를 지배하게 되었는데요. 대표적인 4가지 모델을 순서대로 알아보겠습니다.

① AdaBoost (Adaptive Boosting)

개념: 부스팅의 조상님 격인 알고리즘입니다. 틀린 데이터에 직접적으로 가중치를 부여합니다.
원리: * 실수한 데이터는 가중치를 높이고, 맞춘 데이터는 가중치를 낮춥니다. (어려운 오답노트 무한 반복)
- 최종 결합 시에는 성적이 더 좋았던(예측 성능이 높은) 모델의 의견에 더 큰 비중을 줍니다.

② GBM (Gradient Boosting Machine)

개념: AdaBoost를 발전시켜 가중치 대신 경사하강법(Gradient Descent)을 도입한 모델입니다.
원리: 다음 모델이 가중치를 다루는 게 아니라, 이전 모델이 만든 '오차(잔차, Residual)' 자체를 직접 학습합니다.
- 예시: 실제 데이터가 5인데 예측이 4라면, 오차인 1을 다음 모델이 학습하여 점차 오차를 0에 가깝게 줄여나갑니다.
특징: 비선형 관계를 매우 잘 포착하지만, 순차 학습 특성상 속도가 느리다는 단점이 있습니다.

③ XGBoost (eXtreme Gradient Boosting)

개념: "GBM의 느린 속도와 과적합 문제를 해결한 혁신작!" 실무와 데이터 대회(Kaggle)의 치트키입니다.
장점: * 정규화(Regularization) 도입: 릿지, 라쏘처럼 패널티를 주어 과적합을 방지합니다.
- 병렬 처리: CPU를 효율적으로 써서 학습 속도가 대폭 향상되었습니다.
- 자동 결측치 처리 & 가지치기(Pruning) 적용.

④ LightGBM (LGBM)

개념: XGBoost보다 더 가볍고(Light) 빠른 속도를 자랑하는 최신 트렌드 모델입니다.
핵심 차이 (리프 중심 분할):
- 기존 GBM/XGBoost: 균형 트리 분할(Level-wise) 방식을 써서 안정적이지만 불필요한 노드까지 자랍니다.
- LightGBM: 리프 중심 트리 분할(Leaf-wise) 방식을 사용하여 손실(오차)이 가장 크게 감소하는 노드만 골라 깊게 파고듭니다.
특징: 메모리를 적게 먹고 압도적으로 빠르지만, 데이터 수가 적을 경우 과적합(Overfitting)되기 쉽다는 주의점이 있습니다.

부스팅 모델 한눈에 비교하기

모델명	핵심 특징	장점	단점	✨ 이럴 때 선택하세요!
AdaBoost	오답 데이터에 직접 가중치 부여	직관적이고 단순함	노이즈나 이상치에 취약함	• 데이터셋이 비교적 작고 노이즈가 적을 때 • 모델의 작동 원리를 명확히 설명해야 할 때 • 이진 분류 문제를 풀 때
GBM	오차(잔차)를 경사하강법으로 학습	높은 정확도, 복잡한 비선형 관계 포착	순차 학습으로 인해 속도가 느림	• 예측 성능이 가장 최우선 고려사항일 때 • 데이터의 비선형성이 매우 강할 때 • 충분한 컴퓨터 학습 시간을 확보할 수 있을 때
XGBoost	GBM + 정규화 + 대량 병렬 처리	과적합 방지(L1/L2), 결측치 자동 처리	하이퍼파라미터가 많아 튜닝이 복잡함	• 대규모 데이터셋을 다룰 때 • 결측치(Missing Value)가 많은 데이터일 때 • 높은 성능과 적절한 속도가 모두 필요할 때
LightGBM	리프 중심 분할 (손실 위주 성장)	압도적인 속도, 적은 메모리 소모	소규모 데이터에서 과적합 위험	• 매우 거대한 데이터셋을 다룰 때 • 빠른 학습 속도가 필수적일 때 • 메모리 자원이 제한적일 때 (적은 데이터엔 주의!)

[내일배움캠프-본캠프] QA/QC 26/06/18

dudgus4943 — Thu, 18 Jun 2026 20:31:03 +0900

안녕하세요! 오늘은 머신러닝의 가장 기본이 되면서도 핵심적인 과정인 데이터 전처리, 회귀/분류 모델링, 그리고 성능 평가까지의 전체 과정을 정리해 보겠습니다.

1. 머신러닝 프로세스 개요 (Machine Learning Pipeline)

Data Loading	분석에 필요한 데이터셋을 불러옵니다. (csv, excel, sql 등) · train set (학습용, 레이블 있음) · test set (평가용, 레이블 없음)	DataSets (All, Train, Test)
Data Preprocessing & Feature Engineering	· 결측치 처리, 이상치 처리, 데이터 보정 · Feature Engineering: 기존 데이터를 활용한 신규 데이터 열 생성, 카테고리 데이터 변형(One-Hot Encoding 등) · Feature Selection/Extraction: 중요 데이터 선정 및 상관성이 낮은 불필요한 데이터 삭제 · Data Splitting: 학습용 데이터를 다시 학습(80%)과 학습 평가용(20%)으로 분할	데이터 정리본, x_train, y_train, x_valid, y_valid
Modeling	학습할 모델을 생성합니다. · 회귀: 연속형 레이블 (LR, Ridge, Lasso, RF, GB) · 분류: 범주형 레이블 (LR, DT, RF, GB)	MODEL 인스턴스
Training (fit)	학습 데이터를 이용해 생성된 모델을 학습시킵니다. · 학습 데이터를 넣어 예측값 출력 $\rightarrow$ pred_train · 학습 평가 데이터를 넣어 예측값 출력 $\rightarrow$ pred_valid	pred_train, pred_valid
Evaluation	예측값과 실제값을 비교하여 성능을 평가합니다. · 학습 데이터와 학습 평가 데이터의 성능 차이가 너무 크면 과적합 등의 문제가 발생한 것입니다.	train score, test score
Inferencing	학습된 최종 모델에 실제 예측하고자 하는 데이터(Test Set 또는 미래 데이터)를 넣어 예측합니다.	pred_test
Submission	최종 예측 결과를 양식에 맞춰 제출합니다.	RANK (제출용 파일)

2. 데이터 전처리 (Data Preprocessing) - 인코딩

머신러닝 모델은 수치형 데이터만 입력받을 수 있기 때문에, 글자로 된 범주형(Categorical) 데이터를 숫자로 변환하는 인코딩 과정이 반드시 필요합니다.

범주형 데이터란?

숫자처럼 연속적인 값이 아니라, 특정한 '범주(Category)' 또는 '이름(Label)'으로 표현되어 의미 있는 그룹으로 구분되는 데이터입니다.

성별: 남, 여 (2개 범주)
지역: 서울, 부산, 대전 (3개 범주)
혈액형: A, B, AB, O (4개 범주)
제품등급: 상, 중, 하 (순서가 있는 범주 - Ordinal)
불량 여부: 양품, 불량품 (2개 범주)

① 원-핫 인코딩 (One-Hot Encoding)

순서가 없는 범주형 변수를 다룰 때 가장 안전하고 효과적인 방법입니다. 범주의 개수가 너무 많지 않을 때 주로 사용합니다.

동작 방식: 각 범주를 새로운 열(Column)로 만들고, 해당하는 데이터에만 1을 부여하고 나머지는 0으로 채웁니다.
- 예: 혈액형(A, B, O) $\rightarrow$ A열(1, 0, 0), B열(0, 1, 0), O열(0, 0, 1)

원-핫 인코딩은 pandas 라이브러리의 get_dummies() 함수를 이용해 아주 쉽게 구현할 수 있습니다.

import pandas as pd

# 1. 샘플 데이터프레임 생성
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'blood_type': ['A', 'B', 'O', 'AB']
})
print("원본 데이터:")
print(df)

# 2. One-Hot Encoding 적용
df_encoded = pd.get_dummies(df, columns=['blood_type'])
print("\nOne-Hot Encoding 결과:")
print(df_encoded)

레이블 인코딩 (Label Encoding)

문자형 데이터를 단순 정수형 숫자로 일대일 매핑하여 변환하는 간단한 방법입니다.

언제 사용하나요?
- 상 < 중 < 하, 초급 < 중급 < 고급과 같이 순서(우선순위)가 있는 범주형 변수를 처리할 때 유용합니다.
- 혹은 범주의 종류가 너무 많아 원-핫 인코딩을 적용하면 열이 너무 늘어날 때 대안으로 사용합니다.
- 트리 기반 모델(Random Forest, XGBoost 등)은 데이터에 순서가 없어도 숫자의 크기에 왜곡되지 않고 처리를 잘해줍니다.
동작 방식: 중복을 제거한 고유값들을 글자 순서(사전순)대로 정렬한 뒤, 0부터 순서대로 숫자를 부여합니다.
- 예: 만족도(만족, 보통, 불만) $\rightarrow$ 글자 정렬 시 '만족', '보통', '불만' 순서에 따라 정수 할당

레이블 인코딩은 scikit-learn 라이브러리의 LabelEncoder 클래스를 사용합니다.

import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 예시 데이터 생성
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'satisfaction': ['만족', '보통', '보통', '불만']
})
print("원본 데이터:")
print(df)

# LabelEncoder 객체 생성 및 학습/변환
le = LabelEncoder()

# 데이터를 학습(fit)하여 규칙을 정의합니다.
le.fit(df['satisfaction'])

print("\n# le.classes_ 확인 (인코딩된 범주 목록):")
print(le.classes_)

# 실제 데이터 변환(transform) 수행
df['satisfaction_encoded'] = le.transform(df['satisfaction'])

# 만약 한 번에 하려면 아래 한 줄로도 가능합니다.
# df['satisfaction_encoded'] = le.fit_transform(df['satisfaction'])

print("\nLabel Encoding 결과:")
print(df)

3. 데이터 단위 맞추기: 스케일링 (Scaling)

피처들의 단위와 스케일(값의 범위)이 서로 다르면 모델 학습 과정에서 편향이 발생할 수 있습니다.

예시 상황:
- 키(cm): $160 \sim 190$ (최대-최소 차이: 30)
- 연봉(만원): $1,000 \sim 10,000$ (최대-최소 차이: 9,000)
- 이 경우, 연봉의 스케일이 압도적으로 크기 때문에 모델은 '키' 변수를 무시하고 '연봉' 변수만을 바탕으로 편향되게 학습을 진행할 위험이 있습니다.

① StandardScaler (표준화)

각 변수의 값을 평균이 0, 표준편차가 1인 표준정규분포를 따르도록 변환하는 방법입니다.

수식:

특징: 데이터의 전체적인 분포 모양(곡선 형태)은 유지하면서 중심축을 0으로 이동시키고 양옆으로 크기만 조절합니다. 데이터가 정규분포에 가깝거나 대칭적일 때 유용합니다.
주의: 이상치(Outlier)가 있을 경우 평균과 표준편차 계산이 크게 왜곡될 수 있습니다.

실습 코드

from sklearn.preprocessing import StandardScaler

# 예시 데이터 (5개의 샘플, 2개의 특성)
X_train = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]

# StandardScaler 초기화 및 변환
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

print("StandardScaler 적용 결과:")
print(X_train_scaled)

② MinMaxScaler (정규화)

모든 데이터 값을 최소값 0, 최대값 1 사이의 범위로 압축하여 변환하는 기법입니다.

수식:

특징: 데이터의 범위를 일정한 구간으로 명확히 제한하고 싶을 때 사용하며, 데이터 분포가 특정 방향으로 치우쳐 있는 비정규분포 형태일 때 유용합니다.
주의: 이상치(Outlier)가 단 하나라도 존재하면 전체 데이터 범위가 극단적으로 좁게 압축되어 다른 데이터 간의 미세한 차이를 분별하기 어려워질 수 있습니다.

실습 코드

from sklearn.preprocessing import MinMaxScaler

# 예시 데이터 (5개의 샘플, 2개의 특성)
X_train = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]

# MinMaxScaler 초기화 및 변환
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)

print("MinMaxScaler 적용 결과:")
print(X_train_scaled)

스케일러가 강력한 성능을 발휘할 때: SVM (Support Vector Machine)

SVM 모델처럼 피처의 스케일에 매우 민감한 모델은 스케일 조정을 통해 데이터 간 거리 계산이 공정해지면서 훨씬 안정적이고 정밀한 결정 경계(Decision Boundary)를 형성하게 됩니다.

4. 머신러닝의 난제: 과적합과 다중공선성

① 과적합 (Overfitting) 이란?

머신러닝 모델이 훈련용 데이터(Train Data)에 너무 과하게 최적화되어, 새로운 데이터(Test Data)를 예측할 때 성능이 뚝 떨어지는 현상을 말합니다.

상황 예시: Train Data에서는 100점 만점을 받지만, 정작 실전인 Test Data를 넣으면 20점밖에 받지 못하는 현상입니다.
발생 원인:
1. 모델이 너무 복잡할 때 (너무 많은 파라미터나 과도하게 깊은 트리 기법 사용)
2. 학습을 위한 데이터의 전체 양이 절대적으로 부족할 때
3. 데이터 자체에 노이즈(잡음)나 극단적인 이상치가 너무 많아 모델이 쓸데없는 오차 정보까지 전부 학습해버릴 때
해결 방법:
1. 모델 복잡도 줄이기: 단순하고 간결한 모델 구조를 채택합니다.
2. 데이터 추가 확보: 데이터 수집을 통해 더 넓은 범위의 일반적인 경향을 모델에 학습시킵니다.
3. 규제(Regularization): L1(Lasso), L2(Ridge) 등의 규제 기법으로 불필요하게 가중치가 비대해지는 것을 방지합니다.
4. 교차 검증(Cross Validation): 데이터를 여러 번 쪼개서 학습과 테스트를 반복 평가해 과적합 징후를 조기에 포착합니다.

② 다중공선성 (Multicollinearity) 이란?

머신러닝 학습 모델에 들어가는 독립 변수(Feature)들끼리 너무 강력하게 상관되어 있어 발생하는 현상입니다.

영향: 독립 변수 간의 중복된 정보가 너무 많아지면 선형 회귀 분석 모델에서는 가중치 추정이 불안정해져 해석 능력이 훼손되고 정확도가 하락할 수 있습니다.
비선형 모델(Random Forest, XGBoost 등)과 다중공선성:
- 트리 기반의 비선형 모델은 변수 간의 독립성을 전제하지 않기 때문에 다중공선성의 영향을 크게 받지 않으며, 예측 결과 자체도 잘 유지되는 편입니다.
- 하지만 비선형 모델이라 할지라도 중복 정보가 지나치게 많아지면 모델의 복잡도가 불필요하게 증가(과적합 위험)하고, 중요 변수를 파악하는 특성 중요도(Feature Importance) 해석이 크게 왜곡될 수 있습니다.

다중공선성 해결 기법 3가지

VIF(Variance Inflation Factor) 기반 변수 제거:
- 각 변수마다 VIF 지수를 측정하여, VIF가 10 이상인 경우 다른 변수로 충분히 설명할 수 있는 중복 신호로 취급하고 변수를 하나씩 차례로 소거합니다. (제거 후 남은 변수로 다시 VIF를 구하는 과정을 반복)
높은 상관관계를 가진 변수 직접 제거:
- 피어슨 상관행렬(Pearson Correlation)을 구한 뒤 두 변수 간의 상관계수가 0.9를 초과하는 쌍을 찾고, 도메인 지식을 고려하여 불필요한 하나를 골라 제거합니다.
PCA(Principal Component Analysis, 주성분 분석):
- 중복되는 여러 독립 변수들을 완전히 지우는 대신, 정보를 최대한 보존하면서 서로 수직인 가상의 새로운 축(주성분)들로 차원을 결합하여 축소하는 방식입니다. 다만, 분석 이후 피처의 해석력이 떨어진다는 단점이 있습니다.

다중공선성은 언제나 무조건 처리해야 할까요?

모델링의 목적이 '해석(Interpretation)'인 경우: 독립 변수들이 각 결과에 미치는 정밀한 영향도를 알아야 하므로 VIF와 도메인 지식을 동원해 무조건 처리해야 합니다.
모델링의 목적이 순수 '예측(Prediction)'인 경우: 정확히 결과 수치만 도출하는 것이 목적이라면 굳이 복잡하게 변수를 지우고 축소할 필요 없이 머신러닝 학습 모델의 예측 파워를 유지하기 위해 다중공선성을 방치해도 괜찮습니다.

5. 데이터 분할 (Data Splittin

g)

훈련용 데이터(Train)와 검증/평가용 데이터(Test)를 정밀하게 분배하는 단계입니다. 학습용 모의고사 데이터셋을 쪼개어 일부는 평가용 모의고사(validation)로 남겨두는 작업입니다.

실습 코드

scikit-learn에서 제공하는 train_test_split 모듈을 사용합니다. stratify 옵션을 쓰면 정답 레이블의 불균형 비율을 훈련셋과 테스트셋에 똑같이 복사하여 깔끔하게 분할할 수 있습니다.

import pandas as pd
from sklearn.model_selection import train_test_split

# 예시 불균형 데이터 생성
data = {
    'feature1': range(100),
    'feature2': range(100, 200),
    'label': [0]*80 + [1]*20  # 80:20의 불균형 데이터
}
df = pd.DataFrame(data)

# X(입력) 변수와 y(정답 레이블) 분리
X = df[['feature1', 'feature2']]
y = df['label']

# 데이터 분할 (30%를 테스트 데이터로 설정, stratify를 지정해 정답 비율을 유지합니다.)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

# 최종 결과 확인
print("훈련 데이터 크기:", X_train.shape)
print("테스트 데이터 크기:", X_test.shape)

6. 회귀 분석 및 평가 (Regression & Evaluation)

① 회귀 분석 개요

연속적인 실수 값을 예측하기 위한 지도학습 모델입니다.

선형회귀 (Simple Linear Regression):

회귀 모델 실습 1 (단순 선형회귀)

scikit-learn에서 머신러닝 학습 모델을 생성하는 공통 패러다임은 언제나 동일합니다.

clf = 모델명() (인스턴스 생성)
clf.fit(X_train, y_train) (모델 학습)
y_pred = clf.predict(X_test) (결과 예측)
평가지표(y_test, y_pred) (예측 성능 확인)

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 데이터 준비
X = [[1], [2], [3], [4], [5]]
y = [2, 4, 6, 8, 10]

# 학습 및 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 인스턴스 선언 및 지도학습 진행
model = LinearRegression()
model.fit(X_train, y_train)

③ 회귀 모델 성능 평가 지표

회귀 평가 지표들은 모델의 예측값과 실제값 사이의 잔차(Residual, 오차)를 다양한 방법으로 계산해 냅니다.

1. 절대 오차 (MAE, Mean Absolute Error)

실제값과 예측값 차이의 절대값을 전부 더해 평균을 낸 것입니다. 오차의 절대적인 스케일을 왜곡 없이 직관적으로 나타내 줍니다.

2. 평균 제곱 오차 (MSE, Mean Squared Error)

오차를 제곱해서 평균을 계산합니다. 제곱 연산의 특성상 실제값과 멀어진 큰 오차에 압도적인 가중 처벌(페널티)을 부여합니다. 다만 단위가 본래 가격의 '원' 단위에서 '원²' 단위로 변형되므로 직관적 분석이 다소 난해합니다.

from sklearn.metrics import mean_squared_error

# 예시 데이터 (실제 값과 예측 값)
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

# MSE 계산
mse = mean_squared_error(y_true, y_pred)
print("MSE:", mse)

3. 평균 제곱근 오차 (RMSE, Root Mean Squared Error)

MSE에 루트를 씌워 본래 타겟 데이터의 실제 스케일 단위로 오차 수준을 복구시킨 지표입니다. 오차 평균의 직관성을 보장합니다.

from sklearn.metrics import mean_squared_error
import numpy as np

y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

mse = mean_squared_error(y_true, y_pred)
# 제곱근 변환
rmse = np.sqrt(mse)
print("RMSE:", rmse)

4. 결정 계수 ($R^2$, R-squared)

모델이 실제 타겟의 전체 변동성 중 얼마나 많은 비율을 부드럽게 설명해내고 있는지를 뜻하는 수치입니다. 1에 수렴할수록 완벽히 작동하는 훌륭한 모델입니다.

빨간 선: 모델의 예측값 / SSE: 오차.
결정계수 = 1-(모형에 의해 설명이 되지 않는 변동/Y의 전체 변동)

from sklearn.metrics import r2_score

y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

r2 = r2_score(y_true, y_pred)
print("R² 스코어:", r2)

④ 다중 선형회귀 (Multiple Linear Regression)

두 개 이상의 풍부한 여러 독립 변수(Feature)들을 함께 고려하여 복합적으로 정답을 수치 예측하는 알고리즘입니다.

수식:

실습 코드

import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 독립 변수 (x1, x2) 다차원 행렬 준비
X = np.array([[1, 2], [2, 3], [3, 5], [4, 6], [5, 8]])
# 종속 변수 y 준비
y = np.array([3, 5, 7, 9, 11])

# 학습 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 다중 회귀 모델 생성 및 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 파라미터 값 추출 및 결과 출력
print("회귀 계수 (W):", model.coef_)       # 각 가중치 배열
print("절편 (b):", model.intercept_)       # 절편
print("X_test 입력값:\n", X_test)
y_pred = model.predict(X_test)
print("최종 모델의 예측값:", y_pred)

7. 분류 모델 및 평가 (Classification & Evaluation)

① 분류 분석 개요

미리 정의해 둔 불연속 범주 그룹에 맞추어 대상을 정밀하게 분류하는 지도학습 모델입니다. (정답 레이블이 없는 군집 분석과 명확히 구별됩니다.)

종류: 이진 분류 (0이냐 1이냐), 다중 분류 (여러 클래스 분류)

② 로지스틱 회귀 분석 (Logistic Regression)

종속 변수가 범주형 데이터일 때 사용하며, 겉으로는 회귀 식을 쓰지만 실제로는 강력한 분류 알고리즘으로 사용됩니다.

선형 회귀의 확률 예측 실패:
- 만약 분류 과제를 일반 선형 회귀 모델로 계산한다면 예측 결과가 음수가 되거나 1을 초과하게 될 위험이 있습니다.
로지스틱의 해법:
- 선형 예측 결과를 S자 곡선인 시그모이드 함수(Sigmoid Function)에 넣어 출력값을 항상 0~1 사이의 안전한 확률 값으로 강제 정제합니다.

③ 분류 모델의 상세 성능 평가 지표

1. 혼동 행렬 (Confusion Matrix)

예측 범주와 실제 범주의 일치 여부를 아래 표 형식으로 나타낸 오차 행렬입니다. scikit-learn에서는 정답 클래스가 0, 1 순서에 따라 아래 배치 규칙을 가집니다.

실제값 (Actual) \ 예측값 (Predicted)Negative (0)Positive (1)

Negative (0)	TN (True Negative)	FP (False Positive)
Positive (1)	FN (False Negative)	TP (True Positive)

True Positive (TP): Positive(1)로 예측했고 실제로 맞춤
False Negative (FN): Negative(0)로 예측했으나 실제로는 Positive(1)임 (틀림)
False Positive (FP): Positive(1)로 예측했으나 실제로는 Negative(0)임 (틀림)
True Negative (TN): Negative(0)로 예측했고 실제로 맞춤

2. 정확도, 정밀도, 재현율, F1-Score 수식

정확도 (Accuracy): (TP+TN)/(TP+FN+FP+TN)
- 전체 예측 데이터 중 정답을 맞춘 종합적 성공 비율입니다. 데이터 분포 불균형 시 정확도가 높은 착시가 생길 수 있습니다.
정밀도 (Precision):$$\text{Precision} = TP/(TP+FP)
- 모델이 Positive(1)라고 강력히 우긴 데이터 중 진짜 정답이었던 비율입니다.
- 정밀도는 의사가 아주 확실하다고 확신할 때만 소극적으로 판정을 내리면 올리기 편합니다.
재현율 (Recall, 민감도):$$\text{Recall} = TP/(TP+FN)
- 실제 존재하던 전체 Positive(1) 데이터들 중 빠트리지 않고 모델이 몇 %나 잡아냈는지 비율입니다.
- 암 환자 검출, 기계 불량 분석처럼 실제 대상을 절대로 놓치면 안 될 때 매우 중요하게 취급하는 지표입니다. (모든 사람에게 무조건 암이라고 양성 판정을 남발하면 재현율은 쉽게 100%에 도달합니다.)
F1-Score: 2TP/(2TP+FP+FN)
- 정밀도와 재현율이 한쪽으로 극단적으로 치우치지 않게 조화평균(Harmonic Mean)을 내어 모델 성능을 객관적으로 가늠하는 최고의 범용 지표입니다.

④ ROC 커브와 AUC (임계값 무관성 평가)

분류 예측에 쓰이는 임계값(Threshold, 예: 0.5 확률 기준을 0.3이나 0.7로 바꿈)을 연속적으로 이동시킴에 따른 TPR(참양성률, 재현율)과 FPR(거짓양성률, 오탐지율)의 궤적 좌표를 연결한 곡선입니다.

FPR (False Positive Rate): 실제 음성인데 모델이 양성이라고 삽질 예측한 비율 ($FP / (FP + TN)$)
TPR (True Positive Rate): 실제 양성인데 양성으로 정확히 구조해 낸 비율 (Recall)
평가: ROC 커브가 왼쪽 위 모서리에 바짝 붙어 사각형에 채워질수록, 또 대각선(랜덤 무작위 찍기 선, AUC=0.5)에서 멀어져 위로 아치형을 그릴수록 완벽한 모델입니다. 이때 곡선 아래 면적의 크기를 수치화한 것이 AUC(Area Under Curve) 지표이며, 이상적 성능의 완벽한 모델은 AUC = 1.0을 기록합니다.

⑤ 불균형 분포 클래스 평균 계산법: Macro vs Weighted

전체 제품 수 100개 중 정상 제품(90개), 불량 제품(10개)인 극단적인 제조 라인 불량 분류 데이터를 가정해 보겠습니다.

클래스 A (정상): 데이터 90개, 성능 스코어: 0.90 (우수)
클래스 B (불량): 데이터 10개, 성능 스코어: 0.10 (불량)

이 경우 두 클래스의 평균 성적을 매기는 방법에는 큰 차이가 생깁니다.

1. Macro Average (매크로 평균)

데이터 규모 편차에 전혀 현혹되지 않고, 개별 클래스들의 성능 자체만을 동급 일대일 기준선에 올려 평균을 냅니다.

해석: 최종 성적표가 0.50으로 급격히 폭락하게 됩니다. 이는 소수 클래스인 불량품 탐지에서 끔찍한 실적을 거두었다는 모델의 실제 민낯을 여과 없이 처벌하여 투명하게 드러내 줍니다.

2. Weighted Average (가중 평균)

각 클래스가 소유한 원본 데이터 크기 비율을 가중치로 보정 연산하여 합산 평균을 냅니다.

해석: 최종 평가 지표가 0.82라는 준수한 수치로 높게 포장됩니다. 하지만 이는 90% 비중의 다수 정상 데이터가 거둔 우수한 점수 뒤로 소수 클래스의 저조한 예측 실적이 가려지는 치명적인 '착시 현상'입니다.

구분연산 의미권장 활용 가이드잠재 리스크

Macro Avg	클래스간 철저한 평등 분배	소수 클래스를 타겟팅하는 암 예방 진단, 사기 감지, 극소수 불량 탐지 분야	소수 점수에 깎여 모델의 주류 분류 성적이 과소평가될 소지가 있습니다.
Weighted Avg	다수결 비중 가중 원칙	전체 데이터 분류 처리량(볼륨) 관점에서의 종합 성능 평가가 필요할 때	불량품을 한 개도 거르지 못해도 점수가 높게 나와 오판할 수 있습니다.

[내일배움캠프-본캠프] QA/QC 26/06/16

dudgus4943 — Tue, 16 Jun 2026 20:22:39 +0900

오늘은 한국 취업센터에서 앞으로의 저희들이 취업에 있어서 면접이나 자기소개를 쓸때 유용하게 써먹을 수 있는 팁을 알려주셧어요.

알려주셧던 내용 중 하나가 AI역량검사인데 오늘은 이것에 대해 이야기해보도록 하겠습니다.

신역검은 "잠시 쉴게요"라는 기능이 있습니다.

역검 중간에 자리를 비울 수 있다는 얘기입니다.(화장실 등) 물론 진행 중에는 불가하고, 예를 들면 가위바위보 게임을 모두 마치고 홈 화면에서 버튼을 누른 후 휴식할 수 있습니다.

해당 기능은 주어진 횟수 제한이 없지만, 최대한 3회 미만으로 사용을 해주는 편이 좋다고 말씀해주셧습니다.

1, 성향 파악

1-1. 나 알아보기

온라인 인성검사와 크게 다르지 않은 수준이고 전혀 그렇지 않다부터 매우 그렇다까지의 육지선다이며, 총 124문항에 문항당 체크 시간은 10초 내외이므로 시간 내에 잘 체크해 주시면 될 듯합니다.

1-2. 타인 관점에서 나 알아보기

내가 생각하는 나와 타인이 생각하는 나를 모두 체크하면 되는데, 나 알아보기와 마찬가지로 육지선다입니다. 포인트는 둘 사이의 괴리가 크지 않도록 하는 것이고, 그렇다와 그렇다로 체크하거나 그런 편이다와 그렇다 정도로 체크하는 편이 좋을 듯합니다.

1-3. 하나만 선택하기

나 알아보기와 비슷하게 구성되어 있고 겹치는 문항이 많으므로 일관성에 유의하여 체크해야 하며, 따로 선지는 없습니다. 1

1-4. 여러 개 선택하기

자신을 가장 잘 설명하는 순서대로, 또는 자신과 가장 관련이 없는 순서대로 주어진 문장을 체크합니다. 이건 잘 보시면 어느 정도 정답이 정해져 있기 때문에 잘 보시고 체크하시되, 시간이 순식간에 지나가니 유의하셔야 합니다. 이후에는 본인 성향에 대한 질문들이니 소신껏 체크하시면 됩니다.

2, 게임

게임 유형	측정 역량	핵심 팁
가위바위보	순발력, 판단력	조건 읽는 속도 훈련 필수, 키보드 손 위치 미리잡기
길 만들기	공간지각, 논리력	유튜브 풀이 영상 꼭 먼저 시청 - 요령 파악 후 체감 난이도 급락
도형 순서 기억하기	집중력, 작업기억	가장 난이도 높음 - 2~3개 전 도형 기억해야 해서 연속 집중이 핵심
도형 회전하기	공간지각력	인직성 공간지각 유형과 동일 - 사전 인직성 연습으로 빠르게 대비 가능
고양이 술래잡기	주의력, 순발력	화면 전체를 시야에 두고 손가락 반응 속도 높이는 게 관건
약속 정하기	작업기억, 집중력	조건이 누적되므로 앞 조건 기억하며 차근차근 처리
숫자 누르기	순발력, 집중력	단순하지만 속도 압박이 심함 - 손 근육 워밍업 후 응시 추천
개수 비교하기	수 감각, 집중력	대충 어림잡는 게 더 유리, 정확한 계산 시도하면 시간 초과
마법약 만들기	규칙 파악, 논리력	초반 규칙 설명 집중해서 읽기, 놓치면 전체 흐름 흔들림

이후에도 영상면접이 포함되어 있지만, 면접의 경우 제가 크게 알려드릴 내용은 없을것 같아요.

있다고 한다면

1, 질문에 대해 답했는데 실수로 자기소개서와 다르게 말하였을때,

자기소개서에서는 그 부분이 명시되어있어 제가 생각하는 다른 ~것도 말씀드리겠습니다. 이런 늬양스로 대답하기

2, 두괄식으로 대화하기

크게 알게 된 내용은 이 2가지 인것 같습니다.

[내일배움캠프-본캠프] QA/QC 26/06/15

dudgus4943 — Mon, 15 Jun 2026 20:09:51 +0900

오늘은 실제로 코드를 사용하여 문제를 풀었는데, 각 코드에 대해서 간단히 설명하는 글을 적어보도록 하겠습니다.

문제 1

문제 설명
문자열 s는 한 개 이상의 단어로 구성되어 있습니다. 각 단어는 하나 이상의 공백문자로 구분되어 있습니다. 각 단어의 짝수번째 알파벳은 대문자로, 홀수번째 알파벳은 소문자로 바꾼 문자열을 리턴하는 함수, solution을 완성하세요.

제한 사항
문자열 전체의 짝/홀수 인덱스가 아니라, 단어(공백을 기준)별로 짝/홀수 인덱스를 판단해야합니다.
첫 번째 글자는 0번째 인덱스로 보아 짝수번째 알파벳으로 처리해야 합니다.

def solution(s):
    answer = []
    idx = 0  
    
    for char in s:
        if char == ' ': 
            answer.append(char)
            idx = 0     
        else:            
            if idx % 2 == 0:
                answer.append(char.upper())
            else:
                answer.append(char.lower()) 
            idx += 1    
            
    return ''.join(answer)

idx = 0: 전체 문자열의 인덱스가 아니라 현재 단어 안에서 몇 번째 글자인지를 기억하는 계수기(Counter)입니다.
문자열 s에서 한 글자(char)씩 꺼내어 검사합니다.
만약 공백(' ')을 만나면: * 공백은 대소문자 변환이 필요 없으니 그대로 answer에 넣습니다.
- 공백을 만났다는 것은 "기존 단어가 끝나고 새 단어가 시작될 준비를 한다"는 뜻이므로, 단어 내 인덱스인 idx를 다시 0으로 리셋합니다.
- 이 덕분에 공백이 연속으로 여러 개(예: ) 나와도 계속 idx가 0으로 유지되어 안전합니다.
(else) 공백이 아닌 일반 문자(알파벳)를 만나면:
- 현재 단어 내 인덱스인 idx가 짝수인지 홀수인지 검사합니다.
- 문제 조건에 따라 0번째 인덱스는 짝수로 치기 때문에, 맨 첫 글자(idx=0)는 idx % 2 == 0이 참이 되어 대문자(upper())로 변환됩니다.
- 그 다음 글자는 홀수 인덱스가 되어 소문자(lower())로 변환됩니다.
- 글자 하나를 처리했으니 다음 글자를 위해 idx += 1을 해줍니다.
반복문이 모두 끝나면 answer 리스트에는 ['T', 'r', 'y', ' ', 'H', 'e', 'l', 'l', 'o']와 같이 변환된 문자들이 담겨 있습니다.
이를 "".join()을 이용해 하나의 예쁜 문자열("Try Hello")로 합쳐서 반환합니다.

문제 2

한국중학교에 다니는 학생들은 각자 정수 번호를 갖고 있습니다. 이 학교 학생 3명의 정수 번호를 더했을 때 0이 되면 3명의 학생은 삼총사라고 합니다. 예를 들어, 5명의 학생이 있고, 각각의 정수 번호가 순서대로 -2, 3, 0, 2, -5일 때, 첫 번째, 세 번째, 네 번째 학생의 정수 번호를 더하면 0이므로 세 학생은 삼총사입니다. 또한, 두 번째, 네 번째, 다섯 번째 학생의 정수 번호를 더해도 0이므로 세 학생도 삼총사입니다. 따라서 이 경우 한국중학교에서는 두 가지 방법으로 삼총사를 만들 수 있습니다.

한국중학교 학생들의 번호를 나타내는 정수 배열 number가 매개변수로 주어질 때, 학생들 중 삼총사를 만들 수 있는 방법의 수를 return 하도록 solution 함수를 완성하세요.

def solution(number):
    answer = 0
    n = len(number)

    for i in range(n):
        for j in range(i + 1, n):
            for k in range(j + 1, n):
                if number[i] + number[j] + number[k] == 0:
                    answer += 1
                    
    return answer

i (첫 번째 학생): 가장 앞에 서는 학생입니다. 뒤에 최소한 2명(j, k)은 더 있어야 하므로 실제로는 배열의 끝에서 세 번째 자리까지만 의미가 있습니다.
j = i + 1 (두 번째 학생): 무조건 첫 번째 학생(i)의 오른쪽부터 선택을 시작합니다. 이 덕분에 i와 j가 같은 학생을 가리키는 중복이 발생하지 않습니다.
k = j + 1 (세 번째 학생): 무조건 두 번째 학생(j)의 오른쪽부터 선택을 시작합니다. 같은 원리로 j나 i와 겹치지 않습니다.

문제3

숫자로 이루어진 문자열 t와 p가 주어질 때, t에서 p와 길이가 같은 부분문자열 중에서, 이 부분문자열이 나타내는 수가 p가 나타내는 수보다 작거나 같은 것이 나오는 횟수를 return하는 함수 solution을 완성하세요.

예를 들어, t="3141592"이고 p="271" 인 경우, t의 길이가 3인 부분 문자열은 314, 141, 415, 159, 592입니다. 이 문자열이 나타내는 수 중 271보다 작거나 같은 수는 141, 159 2개 입니다.

def solution(t, p):
    answer = 0
    p_len = len(p)     
    p_num = int(p)     

    for i in range(len(t) - p_len + 1):
        sub_num = int(t[i : i + p_len])

        if sub_num <= p_num:
            answer += 1
            
    return answer

p_len: 매번 len(p)를 계산하면 비효율적이므로 변수에 미리 저장해 둡니다. 이 길이는 문자열을 자르는 기준이 됩니다.
p_num: 문자열끼리 대소 비교를 하면 사전순으로 비교가 되어 엉뚱한 결과가 나올 수 있으므로, 확실하게 크기를 비교하기 위해 정수(int)로 미리 바꾸어 놓습니다.

왜 len(t) - p_len + 1 인가요?

- t의 길이가 7이고 p가 3일 때, 마지막으로 잘라낼 수 있는 글자는 맨 끝의 592(인덱스 4, 5, 6)입니다.
- 즉, 시작 인덱스 i는 4까지만 가야 합니다.
- 7 - 3 + 1 = 5가 되어 range(5)는 0, 1, 2, 3, 4까지 돌게 되므로 딱 마지막 글자까지만 안전하게 검사할 수 있게 해줍니다. (범위를 벗어나는 에러 방지)
t[i : i + p_len]: 파이썬의 가장 강력한 기능 중 하나인 슬라이싱입니다. i부터 i + 3 직전까지의 문자열을 쏙 빼옵니다.
꺼내온 문자열(예: "314")을 곧바로 int()를 감싸 숫자로 변환합니다
방금 잘라 만든 숫자(sub_num)가 기준인 p_num(271)보다 작거나 같은지 비교합니다.
조건이 참일 때만 결과 카운트(answer)를 1씩 올려줍니다.

[내일배움캠프-본캠프] QA/QC 26/06/10

dudgus4943 — Wed, 10 Jun 2026 20:39:01 +0900

오늘도 팀별 과제를 중심으로 하루가 지나가버렸습니다.

처음에는 9 to 9으로 하루에 12시간동안 할 수 있을까? 걱정했는데

지금보니 시간이 엄청 너무 빨리가서 부족할 정도에요 ㅜ...

잡담은 여기까지 하고, 오늘은 어제 진행한 부분에 대해서 이야기를 하다가 주어진 데이터에 equipment_log에 적혀있는 [-(숫자)] 데이터 값에 집중해보았어요.

알아보니 이 데이터셋이 장비의 오류코드을 확률이 높더라구요.

해당 공정의 장비를 진행하면서 무언가 불량이 생겨 컴퓨터가 그것을 기록해두는거에요.

그래서 제가 딱 "어? 그럼 여기 오류코드 중에서도 결함이 가장 많이 발생하는 것을 캐치해서 그 오류코드가 발생하지 않게 공정 조건을 조율하고 하면 되지 않을까?" 이 생각이 들어서 해당 내용으로 분석을 실시하였습니다.

# 장비에 상관없이 오직 로그 값(log_value)별로 결함수 평균 구하기
log_defect_mean = df.groupby('log_value')['defect_count'].mean().reset_index()

# 평균 결함수가 높은 순서대로 정렬
print(log_defect_mean.sort_values(by='defect_count', ascending=False).head(10))

#출력값
    log_value  defect_count
51         61      1.870968
20         30      1.831579
58         68      1.757895
69         79      1.738318
87         97      1.708738
7          17      1.670000
53         63      1.660194
71         81      1.648649
88         98      1.636364
36         46      1.623853

코드 결과 log_value 61, 30, 68, 79, 97에서 평균 결함이 많이 생기고 발생한다는 사실을 알게 되었습니다.

이를 바탕으로 상위 5개의 log_value에서 어떤 변수들로 인해 결함이 생겼는지 산포도를 형성시켜 본 결과,

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10, 6))
# x축 온도, y축 압력으로 두고, 결함수가 높을수록 점의 색상을 진하게 표현
sns.scatterplot(
    data=df[df['log_value'].isin([61, 30, 68, 79, 97])],
    x='temperature_C',
    y='pressure_mbar',
    hue='defect_count',
    palette='vlag',
    size='defect_count',
    sizes=(40, 400)
)
plt.title("위험 로그들의 온도 vs 압력 복합 인과관계 분석")
plt.show()

해당 그래프를 통해 온도는 대략 170도 이상 압력은 3.0이상에서부터 결함의 개수가 점점 증가하신다는 사실을 아실 수 있습니다.

그렇다면 저희는 공정을 170도 3mbar아래로 진행시켜 최적의 공정조건을 찾을 수 있을 것 같습니다.

이상 감사합니다.

[내일배움캠프-본캠프] QA/QC 26/06/09

dudgus4943 — Tue, 9 Jun 2026 21:02:28 +0900

오늘도 팀원분들과 함께 팀과제를 진행해보았었습니다.

이렇게 데이터 셋을 보고 분석을 하는데 무엇이 문제인지 여러 데이터를 보면서 해결하는게 쉬운일이 아니군요 ㅜㅜ

그래도 데이터를 보고 어떤 변수가 결함과 연관이 있는데 한번 조사를 해보았었습니다.

아직 결론을 도출하진 않았지만 금일 분석한 내용으로 한번 정리를 해볼게요

컬럼정보부터 확인하시면

wafer.csv 컬럼 정보

wafer_id: 웨이퍼 개별 식별자 (예: WFR-00000)
lot_id: 웨이퍼가 속한 생산 단위(Lot) ID (예: LOT-4)
process_stage: 현재 진행 중인 공정 단계 (예: Lithography(노광), Etch(식각) 등)
temperature_C: 공정 중 측정된 온도 (°C)
pressure_mbar: 공정 중 측정된 압력 (mbar)
defect_count: 발견된 결함(Defect) 수
defect_type: 결함의 종류 (예: Particle, Unknown 등)
equipment: 공정에 사용된 설비 ID (예: EQ-ETCH-06, EQ-PHOTO-02)
timestamp: 공정이 수행된 날짜 및 시간
hour: 공정이 수행된 시간대 (Hour, 0~23)
shift: 작업 근무 조 (예: Afternoon, Evening 등)
exposure_time_ms: 노광/공정 노출 시간 (ms, 밀리초 단위)
equipment_log: 설비에서 출력된 전체 로그 텍스트 (설비ID, 타임스탬프, 로그 값이 결합된 형태)
log_value: 설비 로그에서 추출된 특정 수치 데이터

공정 단계(PROCESS STEP)별 변수 차이 비교

온도와 압력의 분포와 상관관계 시각화

장비 종류 및 사용 이력과 결함의 연관성 분석

시간대별 결함 개수의 변동 추이

lot_id별, 장비별 결함률 집계 및 히트맵 생성

온도 및 압력별 결함 수

이러한 데이터 자료들을 도출해 냈는데, 어떤 것에 데이터 전처리를 하고 기준을 잡고 어떻게 분석할지 생각해내는 것부터 하려고 하니 매우 힘들고 나온 결과값들로 결론을 내는데 너무 어렵더라구요.

저희는 이걸 보면서 나온 결과가

다른 자료값을 보면 확 튀는 결과값이 없는데 시간대를 보니 12~13시 사이에 무언가 있어서 결함 수가 급증하는건가?

작업자들의 부주의로 실현되는건가? 이런 결론을 내리다가..

다시 진행해보기로 했었습니다.

다시 공정 별 결함 갯수와 상관관계 가 있는 것들부터 구하였습니다.

보시면 온도와 hour(작업이 시작된 시간)이 갯수와 가장 큰 연관이 있는 것을 알아 내는데 성공했습니다.

하지만 이를 토대로 다시 데이터 셋을 보니 거기서 머리가 터지면서 금일 학습시간이 끝나버렸습니다.

오늘 강의 마친 후에나 내일 팀원들과 여기서부터 다시 이야기를 진행해봐야 할것 같아요..