Turning Simple User Requests into AI-Understandable Instructions
사용자 의도가 명확해지면, AI의 판단도 더욱 명확해집니다
EVA는 사용자가 자연어로 입력한 시나리오를 기반으로 동작하는 시스템입니다.
EVA가 안정적이고 정확한 판단을 내리기 위해서는 사용자의 시나리오가 AI에게 명확하게 이해할 수 있는 형태로 전달되는 것이 매우 중요합니다.
하지만 우리가 일상적으로 사용하는 자연어 표현은 사람에게는 단순하고 명확해 보이더라도, AI 입장에서는 모호한 경우가 많습니다. 이러한 간극이 바로 AI의 오작동이나 부정확한 판단의 원인이 됩니다.
이를 해결하기 위해 EVA에서는 사용자의 간단한 요청을 자동으로 구조화된 표현(Structured Query)으로 확장하는 기술을 개발하고 적용했습니다.
본 포스트에서는
- 왜 단순한 자연어 요청이 AI에게는 어려운지,
- 어떻게 쿼리를 재구성하여 AI의 이해도를 높일 수 있는지,
- 실제 현장 적용 시 얼마나 성능이 개선되었는지,
를 중심으로, 사용자의 의도를 구조화 하는 실질적인 방법과 효과를 공유하고자 합니다.
1. “사람이 쓰러지면 알려줘” — 단순해 보이지만 AI에게는 어려운 요청
현장에서 안전 관리자가 EVA에게 다음과 같이 요청한다고 가정해 보겠습니다.
“사람이 쓰러지면 알려줘요.
이 문장은 사람에게는 충분히 명확해 보입니다. 하지만 실제로는 이 한 문장 안에 다양한 상황과 판단 기준이 포함되어 있어, AI에게는 상당한 혼란을 줄 수 있습니다.
현장에서 발생할 수 있는 다양한 상황들
카메라가 비추는 화면에는 다음과 같이 해석이 애매한 장면들이 실제로 자주 등장합니다:
-
누워 있는 사람과 앉아 있는 사람이 함께 있을 때: 누워 있는 사람이 정말 쓰러진 것인지, 아니면 휴식 중인지 판단이 필요합니다.
-
작업자 일부가 장비나 구조물에 가려져 자세를 명확히 판단하기 어려울 때: 신체의 일부만 보이는 상황에서 쓰러짐 여부를 어떻게 판단해야 할까요?
-
바닥에서 스트레칭을 하거나 몸을 구부리는 모습이 쓰러짐처럼 보일 때: 정상적인 활동인데도 알람을 보내야 할까요?
-
소파나 휴게 공간에서 누워서 쉬고 있을 때: 이것은 명백히 정상적인 휴식 상황이지만, AI는 어떻게 이를 구분할 수 있을까요?
이런 복잡한 상황들을 분석하는 과정에서, 우리는 AI가 더 정확한 판단을 내리기 위해서는 명확하게 구조화된 정보가 필요하다는 중요한 인사이트를 얻게 되었습니다.
예를 들어, 시스템에서는 "쓰러진 사람이 있습니다"라고 판단하여 관리자에게 알람을 보냈지만, 동시에 제공된 근거 설명에서는 "사람이 누워있긴 하지만 위급한 상황으로 보이지는 않습니다"라고 출력하는 경우를 관찰했습니다.
이러한 관창을 통해, 단순한 한 문장의 요청만으로는 AI가 복잡한 현실 상황의 맥락을 충분히 이해하고 일관된 판단을 내리기에 추가적인 정보가 필요하다는 것을 확인할 수 있었습니다.
2. AI가 사람의 요청을 오 해하는 이유
그렇다면 왜 이처럼 간단해 보이는 요청이 AI에게는 정확하게 해석되기 어려울까요?
VLM이 동시에 처리해야 하는 복잡한 작업들
그 이유는 EVA의 VLM(Vision-Language Model)이 사용자의 한 문장을 해석하는 과정에서 실제로는 여러 가지 복잡한 판단을 동시에 수행해야 하기 때문입니다.
AI는 한 장의 이미지와 사용자가 입력한 한 줄의 요청 문장만을 바탕으로 다음의 모든 단계를 순차적으로, 그리고 일관성 있게 처리해야 합니다:
1. 이미지 속 장면과 사람의 상태를 정확히 이해하기
- 화면에 몇 명의 사람이 있는지 파악하고
- 각 사람이 어떤 자세를 취하고 있는지 분석하며
- 주변 환경과 상황을 종합적으로 이해해야 합니다
2. 사용자가 정확히 어떤 상황을 감지해 달라고 요청했는지 해석하기
- "쓰러지다"라는 표현이 구체적으로 어떤 상태를 의미하는지 추론하고
- 사용자가 관심을 가지는 위험 상황의 특징을 파악해야 합니다
3. 현재 분석 중인 장면이 "알람을 보내야 하는 상황"에 해당하는지 판단하기
- 앞서 파악한 장면의 특징과 사용자의 요청을 종합하여
- 실제로 위험한 상황인지 판단을 내려야 합니다
4. 정상적인 예외 상황(휴식, 작업 자세 등)에 해당하는지 확인하기
- 누워있지만 위험하지 않은 정상 상황(휴식, 스트레칭)은 아닌지
- 특수한 작업 자세나 환경적 요인을 고려해야 하는지 검토해야 합니다
5. 최종적으로 알람을 보낼지 말지를 결정하고 그 근거를 설명하기
- 모든 판단을 종합하여 최종 결론을 내리고
- 왜 그러한 결정을 내렸는지 논리적으로 설명할 수 있어야 합니다
자연어 한 문장의 한계
EVA에서는 VLM이 위와 같이 장면 이해 → 의도 해석 → 규칙 판단 → 예외 처리 → 알람 결정이라는 다섯 단계의 복잡한 과정을 한 번에 모두 수행해야 하는 구조로 되어 있었습니다.
핵심적인 문제는 이 다섯 단계의 판단을 정확하게 수행하기 위해 필요한 구체적인 기준과 조건들이 사용자가 입력한 자연어 한 문장 안에는 충분히 명시되어 있지 않다는 점입니다.
사람은 오랜 경험과 상식을 통해 이러한 암묵적인 기준들을 자동으로 보완하고 이해할 수 있습니다. 하지만 AI는 명시적으로 규칙과 기준을 설명해주지 않으면, 제한된 정보만으로 모든 것을 스스로 추론하고 판단해야 하는 어려움에 직면하게 됩니다.


