Multi-Frame 기반 VLM 탐지: 단일 이미지 한계를 넘어 시간적 맥락으로
단일 프레임은 충분한가?
최근 Vision-Language Model(VLM)은 단일 이미지에 대한 이해 능력에서 매우 높은 성능을 보여주고 있습니다. 대규모 멀티모달 모델들은 다중 이미지와 텍스트 조건을 함께 처리하는 구조를 제시하며, 멀티 프레임 기반 추론 가능성을 이론적으로 확장해왔습니다.
그러나 실제 산업 현장의 탐지 시나리오는 연구 환경과 다르게 훨씬 복잡합니다. 단일 프레임으로는 충분해 보이던 문제도, 실제 운영 환경에서는 다양한 오탐과 경계 사례를 만들어냅니다.
예를 들어, 사람이 바닥에 누워 있는 장면이 있습니다. 그 순간만 보면 쓰러짐으로 판단하기 쉽습니다. 하지만 바로 직전 프레임에서는 스트레칭을 하고 있었을 수도 있고, 작업 도중 잠시 자세를 바꾼 것일 수도 있습니다.
야간 환경에서는 렌즈 플레어나 조명 반사, 빛 번짐 현상이 화재의 색상 패턴과 유사하게 나타나 단일 이미지 기준으로는 화재로 오탐되는 경우도 존재합니다. 사람조차 한 장의 스냅샷만 보고는 확신하기 어려운 상황에서, 모델에게 단일 프레임만을 제공하는 것은 구조적으로 한계를 가질 수밖에 없습니다.

이러한 사례는 공통적으로 “맥락 부족”이라는 문제를 공유합니다.
시간은 가장 강력한 컨텍스트다
탐지 시나리오 중에는 본질적으로 시간적 흐름을 전제로 하는 것들이 존재합니다.
배회는 일정 시간 이상 동일 공간에 머무르는 패턴을 봐야 정의할 수 있습니다. 장시간 방치 역시 특정 물체가 놓인 뒤 일정 시간 이상 변화가 없다는 조건이 필요합니다.
이러한 문제를 단일 프레임으로 해결하려는 시도는 구조적으로 어렵습니다. “상태”가 아니라 “변화”를 봐야 하기 때문입니다.
우리는 이를 세 가지 컨텍스트 수준으로 구분했습니다.
- 단일 이미지 기반 판단
- 짧은 구간의 멀티 이미지 기반 순간적 맥락 판단
- 시간 흐름을 포함한 멀티 이미지 기반 Temporal 판단
실제 운영 환경에서는 이 세 가지가 혼재합니다. 어떤 시나리오는 단일 프레임으로 충분하고, 어떤 시나리오는 몇 초 간격의 연속 프레임이 필요하며, 또 어떤 경우는 수십 초 이상의 흐름을 봐야 합니다.
EVA의 Multi Frame Manager
EVA에서는 사용자가 작성한 시나리오를 단순한 텍스트 조건으로 보지 않습니다. 해당 시나리오가 요구하는 “맥락 수준”을 분석한 뒤, 그에 맞는 프레임 수집 전략을 결정합니다.
예를 들어, 쓰러짐 탐지라면 단일 프레임이 아니라 전후 몇 초 구간을 포함한 멀티 이미지가 필요합니다. 반면 장시간 방치는 슬라이딩 윈도우 기반으로 일정 시간 동안의 프레임을 지속적으로 수집해야 합니다.
이 과정을 담당하는 모듈이 Multi Frame Manager입니다. 이 모듈은 시나리오 특성에 따라 아래의 사항을 동적으로 결정합니다.
- 필요한 프레임 수
- 수집 간격
- 유지 시간
- 이벤트 트리거 확장 여부
수집된 이미지는 단순히 나열되지 않습니다. 시간 순서가 명확히 정렬된 상태로 VLM에 전달되며, 모델이 프레임 간 변화를 비교하도록 유도하는 시스템 프롬프트가 함께 적용됩니다.



