이미지에서 언어로, 언어에서 판단으로: 카메라 컨텍스트로 VLM 성능 끌어올리기
캠퍼스, 안전을 넘어 지능을 갖다: EVA와 함께하는 Postech Living Lab 프로젝트로 손민준 군(지도 교수 고영명 님)과 협동 연구한 주제입니다.
사용자의 한 줄 질의를 더 똑똑하게: 이미지 컨텍스트로 언어를 보강하는 법
EVA는 수백~수천 대의 스마트 카메라로 이상 상황을 감지하는 시스템입니다. 우리는 VLM/LLM을 활용해 카메라 컨텍스트를 자동으로 추론하고, 이를 프롬프트에 녹여 넣어 탐지하고자 하는 이미지의 상황이 반영된(camera-context; 카메라 컨텍스트 기반) 이상 탐지 파이프라인을 만들었습니다. 단일 프레임으로 추출한 카메라 컨텍스트를 VLLM의 사전 지식으로 활용했을 때, 기존 베이스라인 대비 의미 있는 정확도 향상 과 더 깊은 해석 가능성을 확인했습니다.
1. 왜 “컨텍스트 블라인드(Context-Blind)”가 문제인가
EVA가 다루는 카메라 환경은 사무실, 출입구, 주차장, 공사장, 복도 등 매우 다양하며, 각 카메라는 고유의 감시 목적을 가지고 있습니다. 그러나 대부분의 기존 Video Anomaly Detection (VAD) 시스템은 이러한 환경적, 목적적 차이를 무시하고 영상을 분석하는 근본적인 한계를 지닙니다.
-
모션에만 기반한 판단의 한계: "복도에서 뛰는 사람"과 "운동장에서 뛰는 사람"은 움직임 자체는 같지만, 보안 관점에서는 그 의미가 완전히 다릅니다. 컨텍스트가 없는 경우, 모션 정보만으로는 둘 다 '이상' 혹은 둘 다 '정상'으로 오인될 가능성이 높습니다.
-
도메인 지식의 부재: 범용 VLM/VLLM은 일반적인 지식은 풍부하지만, 보안 및 감시 도메인에 특화된 전문 지식이 부족하여 중요한 상황에서 모호하거나 부정확한 설명, 심지어 환각(Hallucination)을 생성하기 쉽습니다.
이러한 문제들은 결과적으로 높은 오탐률(High False Alarm) 을 유발하여, 시스템 운영자에게 알람 피로(Alert Fatigue)를 가중시키는 결과를 초래합니다.

