PPE 모드로 보호구 미착용 탐지를 더 정확하게
· 약 5분
EVA v.3.0 신규 기능: PPE 모드로 보호구 미착용 탐지를 더 정확하게
EVA v.3.0에서는 보호구 미착용 탐지의 오탐을 줄이기 위해, VLM 추론 방식을 단계적으로 재설계한 PPE 모드를 새롭게 추가했습니다. 핵심은 "사용자 질의에 바로 답하게 하는 방식"에서 벗어나, 모델이 먼저 장면을 설명하고 그 설명을 기반으로 판단하도록 에이전트 구조를 고도화한 것입니다.
1. 왜 기 존 방식에서 오탐이 많이 발생했나: VLM의 질의 편향과 할루시네이션
보호구 미착용 탐지에서 사용자 질의가 "안전모를 안 쓴 사람 찾아줘"처럼 직접적일수록, 일부 VLM은 질의 의도에 맞춰 긍정(동의) 성향의 답변을 생성하는 경향을 보입니다. 이때 실제 이미지 근거가 충분하지 않아도 "미착용"으로 답해 오탐(False Positive)이 늘어날 수 있습니다.
이 문제는 VLM/LLM 영역에서 보고되는 할루시네이션(hallucination) 및 시코팬시(sycophancy, 사용자 견해에 과도하게 맞추는 경향)와 맞닿아 있습니다.123
반대로, 같은 이미지에 대해 "무엇이 보이는지 설명해줘"처럼 설명 중심 프롬프트를 사용할 때는 사용자 의도를 맞추려는 압력이 줄어들어, 객체 상태를 더 사실적으로 표현하는 경향을 확인했습니다.
2. EVA v.3.0 에 이전트 고도화: "질의에 답변"이 아니라 "설명 후 판단"으로
EVA v.3.0의 PPE 모드는 VLM이 사용자 의도에 직접 끌려가지 않도록, 탐지 과정을 3단계 파이프라인으로 분리했습니다.
기존 방식이 "사용자 질의 -> 즉시 판정"에 가까웠다면, PPE 모드는 "대상 선별 -> 영역 확인 -> 상태 설명 -> 규칙 매칭"으로 판단 근거를 분리해 오탐을 줄입니다.
핵심 원칙
- 작업 맥락을 먼저 확인: 사람 단위 박스 정보와 함께, 고소 작업처럼 전체 이미지 맥락이 필요한 상황까지 반영해 작업 대상을 선별합니다.
- 착용 여부와 확인 가능성을 분리: "무엇을 착용했는가"와 "판단에 필요한 신체 부위가 실제로 보이는가"를 분리해 검증합니다.
- 최종 판단은 규칙으로 일관되게: 탐지 항목, 유사어, required area 확인 결과를 함께 매칭해 알람 발생 기준을 표준화합니다.


