오늘도 팀원분들과 함께 팀과제를 진행해보았었습니다.
이렇게 데이터 셋을 보고 분석을 하는데 무엇이 문제인지 여러 데이터를 보면서 해결하는게 쉬운일이 아니군요 ㅜㅜ
그래도 데이터를 보고 어떤 변수가 결함과 연관이 있는데 한번 조사를 해보았었습니다.
아직 결론을 도출하진 않았지만 금일 분석한 내용으로 한번 정리를 해볼게요
컬럼정보부터 확인하시면
wafer.csv 컬럼 정보
- wafer_id: 웨이퍼 개별 식별자 (예: WFR-00000)
- lot_id: 웨이퍼가 속한 생산 단위(Lot) ID (예: LOT-4)
- process_stage: 현재 진행 중인 공정 단계 (예: Lithography(노광), Etch(식각) 등)
- temperature_C: 공정 중 측정된 온도 (°C)
- pressure_mbar: 공정 중 측정된 압력 (mbar)
- defect_count: 발견된 결함(Defect) 수
- defect_type: 결함의 종류 (예: Particle, Unknown 등)
- equipment: 공정에 사용된 설비 ID (예: EQ-ETCH-06, EQ-PHOTO-02)
- timestamp: 공정이 수행된 날짜 및 시간
- hour: 공정이 수행된 시간대 (Hour, 0~23)
- shift: 작업 근무 조 (예: Afternoon, Evening 등)
- exposure_time_ms: 노광/공정 노출 시간 (ms, 밀리초 단위)
- equipment_log: 설비에서 출력된 전체 로그 텍스트 (설비ID, 타임스탬프, 로그 값이 결합된 형태)
- log_value: 설비 로그에서 추출된 특정 수치 데이터






이러한 데이터 자료들을 도출해 냈는데, 어떤 것에 데이터 전처리를 하고 기준을 잡고 어떻게 분석할지 생각해내는 것부터 하려고 하니 매우 힘들고 나온 결과값들로 결론을 내는데 너무 어렵더라구요.
저희는 이걸 보면서 나온 결과가
다른 자료값을 보면 확 튀는 결과값이 없는데 시간대를 보니 12~13시 사이에 무언가 있어서 결함 수가 급증하는건가?
작업자들의 부주의로 실현되는건가? 이런 결론을 내리다가..
다시 진행해보기로 했었습니다.
다시 공정 별 결함 갯수와 상관관계 가 있는 것들부터 구하였습니다.




보시면 온도와 hour(작업이 시작된 시간)이 갯수와 가장 큰 연관이 있는 것을 알아 내는데 성공했습니다.
하지만 이를 토대로 다시 데이터 셋을 보니 거기서 머리가 터지면서 금일 학습시간이 끝나버렸습니다.
오늘 강의 마친 후에나 내일 팀원들과 여기서부터 다시 이야기를 진행해봐야 할것 같아요..