사용자 피드백 데이터 기반 Instruction Tuning을 통한 성능 고도화
캠퍼스, 안전을 넘어 지능을 갖다: EVA와 함께하는 Postech Living Lab 프로젝트로 이재찬 군(지도 교수 고영명 님)과 협동 연구한 주제입니다.
🎯 서론: 피드백을 '사후 보정'에서 '사고 능력 강화'로 전환하다
EVA가 이미지를 판단할 때, 운영자들은 "이 경우는 안전조끼가 맞아. 왜 헷갈린 거지?" 또는 "여기서는 경보가 나야 하는 것 아닌가?"와 같은 구체적인 피드백을 제공합니다. 이 피드백에는 단순한 정오답을 넘어, 사람이 판단에 이른 이유와 문맥이 담겨 있습니다.
그동안 EVA는 이러한 피드백을 별도의 Vector DB에 저장하여 유사 상황 발생 시 Alert 여부를 보정하는 방식으로 활용해 왔습니다. 이 방식은 신속한 적용이 가능하다는 장점이 있었지만, 모델 자체의 추론 능력을 개선하지 못하고 오류를 사후적으로 필터링하는 구조적 한계를 가지고 있었습니다.
우리는 이 문제를 근본적으로 해결하기 위해 접근 방식을 완전히 바꿨습니다. 사용자 피드백을 단순한 오류 보고가 아니라, 모델이 추론 과정에 직접 활용하여 시각적 사고(Visual Reasoning) 능력을 강화할 수 있는 Instruction 데이터로 재구성한 것입니다.
이 글에서는 사용자 피드백 데이터를 활용한 VLM 기반 Instruction Tuning이 기존의 Vector DB 중심 접근의 한계를 어떻게 극복하고, 모델의 시각적 추론 능력을 어떻게 개선하는지를 중심으로 이야기하려고 합니다.
1. 기존 Vector DB 중심 접근의 구조적 과제와 개선 필요성
EVA는 오탐 피드백을 벡터로 저장하고, 새로운 이미지가 들어오면 유사 사례를 검색하여 Alert 여부를 보정하는 방식을 사용해 왔습니다. 이 방식은 빠르고 간단하게 적용 가능하다는 장점이 있었으나, 모델 자체의 지능적인 판단 능력을 향상시키는 데는 다음과 같은 구조적 과제가 존재했습니다.
-
(1) 사례 기반 의존성: Vector DB는 과거에 저장된 사례에만 의존하므로, 시스템 운영 중 새로운 유형의 복잡한 사례(Hard Case) 가 등장하면 일반화하여 대응하기 어렵습니다.
-
(2) 본질적인 모델 추론 능력의 한계: 보정 로직이 필터링 단계에서만 작동하므로, 모델 자체는 오류 패턴을 학습하지 못하고 동일한 시각적 혼동을 반복할 가능성이 남아있습니다.
-
(3) 복잡한 시각적 문맥 이해 부족: 조명 변화, 색상 차이, 반사 스트라이프 유무 등 산업 현장 특유의 미묘한 시각적 변수를 모델이 스스로 이해하고 판단에 통합하는 능력이 미흡했습니다.
요약하면, 기존 방식은 "결과를 사후적으로 보정하는 도구"로서의 역할은 충실했지만, 모델에게 왜 잘못 판단했는지, 어떻게 올바르게 판단해야 하는지를 학습시켜 스스로 일관성 있는 판단을 내릴 수 있도록 돕지는 못하는 구조였습니다.
2. 새로운 방향성: VLM 기반 Instruction Tuning과 프로젝트 목표
기존 Vector DB 방식이 오류를 사후적으로 보완하는 데 집중했다면, 새로운 접근은 모델이 스스로 규칙을 이해하고 일관된 결론을 내릴 수 있도록 만드는 데 초점을 맞춥니다. 이 문제를 해결하기 위한 선택지가 바로 VLM(Vision-Language Model) 기반 Instruction Tuning입니다.
VLM은 이미지와 텍스트를 함께 이해하는 구조를 갖고 있으며, 여기에 지시문(Instruction)과 정답을 함께 학습시키면 모델은 단순 검출을 넘어 맥락 기반 시각적 추론 능력을 갖추게 됩니다. 즉, "무엇을 봐야 하는가"뿐 아니라 "어떻게 판단해야 하는가"를 학습할 수 있게 되는 것입니다.
이번 프로젝트는 이러한 특성을 실제 산업 환경에서 검증하기 위해 설계되었으며, 핵심 목표는 다음과 같습니다.
- 오탐·미탐 피드백을 QA Instruction 데이터셋으로 재구성합니다.
- 이 데이터를 바탕으로 EVA 기반 VLM을 Instruction Tuning 합니다.
- 튜닝된 모델이 기존 대비 실제 추론 능력이 얼마나 향상되는지를 정량적으로 검증합니다.
이번 프로젝트는 단순히 성능 개선을 넘어, 모델이 규칙을 이해하고 스스로 판단할 수 있는 구조적 개선이 가능한지를 증명하는 과정이었습니다.
3. 💡 방법론
3.1. Phase 1: Baseline 구축 및 Failure Collection
본 프로젝트의 첫 단계에서는 EVA에서 기존에 사용하던 VLM인 Qwen2.5-VL-32B-Instruct를 기준 모델(Baseline)로 설정하고, Kaggle PPE Dataset을 활용하여 오탐/미탐 사례 총 152건의 Hard Case를 수집하였습니다.
- 오탐(False Positive): 안전장비를 착용했음에도 불구하고 Alert가 발생한 사례

