본문으로 건너뛰기

오픈클로가 보여주는 AI 서비스의 미래

· 약 4분
Daniel Cho
Daniel Cho
Mellerikat Leader

최근 AI 커뮤니티를 뜨겁게 달구고 있는 오픈클로(OpenClaw) 맥미니와 같은 로컬 환경에서 구동되며 사용자의 화면을 실시간으로 해석하고, 다양한 애플리케이션을 직접제어하는 이 서비스는 우리에게 중요한 사실을 시사합니다.

이제 AI의 승부처는 "얼마나 거대하고 성능 높은 파운데이션 모델(Foundation Model)인가"가 아니라, "그 모델을 활용해 실제 환경에서 얼마나 복잡한 업무를 수행(Application)할 수 있는가"로 옮겨왔다는 점입니다.


패러다임의 전환: 성능에서 실행력으로

  • 기존 패러다임: "얼마나 똑똑한가?" - 지금까지 AI 업계는 주로 파운데이션 모델(Foundation Model)의 규모와 성능에 집중해왔습니다. GPT-4, Claude, Gemini 등 거대 언어 모델들은 더 많은 파라미터, 더 큰 데이터셋, 더 높은 벤치마크 점수를 경쟁의 핵심으로 삼았습니다. 이는 "얼마나 똑똑한 AI인가?"라는 질문에 답하려는 시도였습니다.

  • 새로운 패러다임: "얼마나 일을 대신 수행할 수 있는가?" - 하지만 OpenClaw의 등장은 완전히 다른 질문을 던집니다. "그 모델을 활용해 실제 환경에서 얼마나 복잡한 업무를 수행(Application)할 수 있는가?" 이제 AI의 가치는 단순한 지능 수준이 아니라, 실제 컴퓨팅 환경에서의 실행 능력으로 평가받게 됩니다.

VLM에게 '멀티 태스킹'을 가르치는 법: 시나리오 분해를 통한 상황 인지 능력 고도화

· 약 8분
Hyunchan Moon
Hyunchan Moon
AI Specialist

EVA 핵심은 "화재", "낙상", "교통사고" 등 화면 속에서 동시 다발적으로 일어나는 위급 상황을 놓치지 않고 '이해' 하는 것입니다. 하지만 아무리 뛰어난 VLM(Vision-Language Model)이라도 한 번에 너무 많은 것을 물어보면 인지 능력이 급격히 떨어지는 현상이 발생합니다.[2,3]

본 포스트에서는 텍스트-비디오 검색 분야의 최신 연구인 Q₂E (Query-to-Event Decomposition)[1] 논문을 참고하여, VLM이 단일 화면 내의 복합적인 시나리오를 깊이 있게 인지하도록 만드는 '시나리오 분해(Scenario Decomposition)' 기법을 소개합니다.

EVA로 구현하는 Physical AI

· 약 3분
Gyulim Gu
Gyulim Gu
Tech Leader

AI는 언제 현실에 개입할 수 있을까?

산업 현장에서 사고는 예고 없이 발생합니다. 사람이 쓰러지고, 팔이 설비에 끼이며, 화재가 발생하는 순간은 대부분 아주 짧은 시간 안에 일어납니다.

Physical AI는 이 순간을 인식하는 것에서 멈추지 않고, 현장의 물리적인 동작으로 이어질 수 있어야 합니다.

이번 글에서는 레고 기반 시뮬레이션을 통해 EVA가 사고를 어떻게 탐지하고, 그 판단이 실제 설비 동작으로 어떻게 연결되는지를 하나의 흐름으로 살펴봅니다.




레고로 단순화한 산업 현장 시뮬레이션

복잡한 산업 현장을 그대로 재현하는 대신, 레고를 활용해 사고 상황을 단순하게 구성했습니다.

사람이 쓰러지는 상황, 팔이 설비에 끼이는 상황, 화재가 발생하는 상황을 각각 독립적인 시나리오로 구성했습니다.

설비에 팔 끼임 시나리오 - 컨베이어 멈춤과 비상등 울림

EVA, 물리적 센서를 넘어선 안전 관리의 새로운 기준

· 약 3분
Daniel Cho
Daniel Cho
Mellerikat Leader

EVA가 앞당긴 화재 대응의 골든타임  

제조 현장에서 화재 발생 시 ‘골든타임’을 확보하는 것은 인명과 자산을 보호하기 위한 가장 중요한 요소입니다. 기존의 화재 감지 시스템은 물리적인 센서에 의존해 왔지만, 이제는 카메라 기반의 지능형 감지 기술이 그 역할을 빠르게 대체하고 있습니다. 이번 포스팅에서는 LG전자 사업장에서 진행된 실증 테스트를 통해 EVA의 연기 감지 성능을 분석하고, 그 기술적 의미를 살펴보고자 합니다.




사업장 실증 테스트: 8초 vs 38초의 차이

LG전자 사업장에서 실제 화재 상황을 가정한 연기 감지 테스트가 진행되었습니다. 이번 테스트의 핵심은 기존에 설치된 연기감지기와 새롭게 도입된 EVA 간의 감지 속도를 비교하는 것이었습니다.

테스트 결과는 매우 고무적이었습니다. 화재 발생으로 연기가 피어오르기 시작한 시점을 기준으로, 각 시스템의 평균 반응 속도는 다음과 같았습니다.

EVA : 연기 발생 약 8초 후 감지

기존 연기감지기: 연기 발생 약 38초 후 감지

결과적으로 EVA가 기존 연기감지기 대비 약 4배 이상 빠른 속도로 위험 상황을 인지하고 전파했습니다. 이 30초의 차이는 초기 화재 진압의 성패를 가를 수 있는 결정적인 시간입니다.

EVA와 Workflow Builder의 결합

· 약 6분
Gyulim Gu
Gyulim Gu
Tech Leader

단순한 ‘관찰’을 넘어 ‘개입’하는 AI로

오늘날 AI의 핵심 과제는 단순히 데이터를 분석하거나 장면을 설명하는 것에 그치지 않습니다.

진정한 지능형 시스템은 분석을 바탕으로 물리 세계나 기업 운영 시스템에서 유의미한 액션(Action)을 끌어낼 수 있어야 합니다.

EVA는 이제 시각 정보를 이해하고 상황을 판단하는 '눈'과 '뇌'의 역할을 넘어, Workflow Builder라는 '손'과 결합하고 있습니다.

이는 단순한 알림 중심의 수동적 모니터링을 넘어, 현장의 상황을 스스로 판단하고 문제 해결까지 이어지는 엔드투엔드(End-to-End) 자동화 구조의 완성을 의미합니다.


이미지에서 언어로, 언어에서 판단으로: 카메라 컨텍스트로 VLM 성능 끌어올리기

· 약 7분
Minjun Son
Minjun Son
POSTECH
Jisu Kang
Jisu Kang
AI Specialist

캠퍼스, 안전을 넘어 지능을 갖다: EVA와 함께하는 Postech Living Lab 프로젝트로 손민준 군(지도 교수 고영명 님)과 협동 연구한 주제입니다.


사용자의 한 줄 질의를 더 똑똑하게: 이미지 컨텍스트로 언어를 보강하는 법

EVA는 수백~수천 대의 스마트 카메라로 이상 상황을 감지하는 시스템입니다. 우리는 VLM/LLM을 활용해 카메라 컨텍스트를 자동으로 추론하고, 이를 프롬프트에 녹여 넣어 탐지하고자 하는 이미지의 상황이 반영된(camera-context; 카메라 컨텍스트 기반) 이상 탐지 파이프라인을 만들었습니다. 단일 프레임으로 추출한 카메라 컨텍스트를 VLLM의 사전 지식으로 활용했을 때, 기존 베이스라인 대비 의미 있는 정확도 향상과 더 깊은 해석 가능성을 확인했습니다.

사용자 피드백 데이터 기반 Instruction Tuning을 통한 성능 고도화

· 약 10분
Jaechan Lee
Jaechan Lee
POSTECH
Yura Shin
Yura Shin
AI Specialist

캠퍼스, 안전을 넘어 지능을 갖다: EVA와 함께하는 Postech Living Lab 프로젝트로 이재찬 군(지도 교수 고영명 님)과 협동 연구한 주제입니다.


🎯 서론: 피드백을 '사후 보정'에서 '사고 능력 강화'로 전환하다

EVA가 이미지를 판단할 때, 운영자들은 "이 경우는 안전조끼가 맞아. 왜 헷갈린 거지?" 또는 "여기서는 경보가 나야 하는 것 아닌가?"와 같은 구체적인 피드백을 제공합니다. 이 피드백에는 단순한 정오답을 넘어, 사람이 판단에 이른 이유와 문맥이 담겨 있습니다.

그동안 EVA는 이러한 피드백을 별도의 Vector DB에 저장하여 유사 상황 발생 시 Alert 여부를 보정하는 방식으로 활용해 왔습니다. 이 방식은 신속한 적용이 가능하다는 장점이 있었지만, 모델 자체의 추론 능력을 개선하지 못하고 오류를 사후적으로 필터링하는 구조적 한계를 가지고 있었습니다.

우리는 이 문제를 근본적으로 해결하기 위해 접근 방식을 완전히 바꿨습니다. 사용자 피드백을 단순한 오류 보고가 아니라, 모델이 추론 과정에 직접 활용하여 시각적 사고(Visual Reasoning) 능력을 강화할 수 있는 Instruction 데이터로 재구성한 것입니다.

이 글에서는 사용자 피드백 데이터를 활용한 VLM 기반 Instruction Tuning이 기존의 Vector DB 중심 접근의 한계를 어떻게 극복하고, 모델의 시각적 추론 능력을 어떻게 개선하는지를 중심으로 이야기하려고 합니다.

의도 파악 기반 Chat 명령어 수행의 성능 향상

· 약 6분
Yura Shin
Yura Shin
AI Specialist

서론

사용자는 Chat Agent에게 단순한 텍스트를 입력합니다. "모니터링 시작해주세요.", "사람에 대한 threshold를 0.6으로 맞춰줘.", "타겟 리스트에 나무 추가해."

겉으로 보기엔 단순한 대화지만, LLM 내부에서 이 요청을 처리하기 위해 수행해야하는 작업은 훨씬 복잡합니다.

LLM은 먼저 사용자의 요청이 어떤 종류의 작업인지 스스로 분류해야 합니다.

"이건 Target 설정인가? 시나리오 편집인가? 아니면 단순 조회인가?"

그 다음, 해당 태스크에 필요한 파라미터를 정확히 추출하고, 값이 허용 범위에 있는지 검증하며, 잘못된 값이면 이유까지 사용자 친화적으로 설명해야 합니다.

즉, 사람이 여러 단계에 걸쳐 순차적으로 판단해야 할 일을, 기존 LLM 구조는 한 번의 호출로 모두 처리하도록 설계되어 있었습니다.

이 방식은 외형상 깔끔해 보였지만, 실제로는 예측하기 어려운 문제를 반복적으로 만들어냈습니다.

  • 태스크 타입을 잘못 분류하여 엉뚱한 작업을 수행
  • 다른 태스크의 규칙이 섞여 충돌 발생
  • 잘못 추출한 파라미터가 그대로 통과
  • 규칙이 복잡하게 얽혀 유지보수 비용 상승

결국, 근본적인 문제를 해결하기 위해 LangGraph 기반 Multi-Node Routing 구조로 Chat Agent를 재설계하게 되었습니다.

From One-Shot Decisions to Two-Stage Reasoning

· 약 7분
Seongwoo Kong
Seongwoo Kong
AI Specialist
Jisu Kang
Jisu Kang
AI Specialist
Keewon Jeong
Keewon Jeong
Solution Architect

한 번에 모든 것을 판단하기보다, 단계 별로 신중하게

AI가 카메라 화면 한 장을 보고 판단을 내리는 과정은 생각보다 복잡합니다. 사용자는 자연스럽게 “사람이 쓰러지면 알려주세요”, “마스크를 쓰지 않은 작업자를 알려주세요”처럼 간단한 요청을 하지만, AI는 이 요청을 처리하기 위해 사진 분석, 조건 충족 여부 판단, 예외 상황 고려, 최종 결정, 이유 설명까지 여러 과정을 단 한 번에 수행해야 합니다.

EVA에서는 이를 해결하기 위해 사용자의 요청을 탐지 조건(Detection)예외 조건(Exception) 으로 구조화하는 Enriched Input 방식을 도입했고 성능이 크게 좋아졌습니다. 하지만 입력을 구조화 했음에도 불구하고, 여러 요청을 처리하는 과정에서 AI가 여전히 모순된 판단을 내리는 경우가 있었습니다.

즉, 문제는 단순히 조건을 구조화 하는 것 뿐만 아니라, AI가 여러 판단을 한 번에 수행해야 한다는 방식 자체에 있었던 것입니다. 그래서 EVA는 기존의 One-Shot 방식이 가진 한계를 넘어, 두 단계로 나누어 판단하는 Two-Stage Reasoning 구조를 새롭게 도입했습니다.

본 포스트에서는

  • 구조화만으로 해결되지 않았던 문제
  • One-Shot 판단이 가진 근본적 한계
  • 두 단계로 판단을 나누었을 때 AI가 더 잘 작동하는 이유
  • 실제 실험으로 확인한 개선 효과

를 중심으로 Two-Stage 구조의 도입 과정을 소개합니다.

Turning Simple User Requests into AI-Understandable Instructions

· 약 10분
Seongwoo Kong
Seongwoo Kong
AI Specialist
Jisu Kang
Jisu Kang
AI Specialist
Keewon Jeong
Keewon Jeong
Solution Architect

사용자 의도가 명확해지면, AI의 판단도 더욱 명확해집니다

EVA는 사용자가 자연어로 입력한 시나리오를 기반으로 동작하는 시스템입니다.

EVA가 안정적이고 정확한 판단을 내리기 위해서는 사용자의 시나리오가 AI에게 명확하게 이해할 수 있는 형태로 전달되는 것이 매우 중요합니다.

하지만 우리가 일상적으로 사용하는 자연어 표현은 사람에게는 단순하고 명확해 보이더라도, AI 입장에서는 모호한 경우가 많습니다. 이러한 간극이 바로 AI의 오작동이나 부정확한 판단의 원인이 됩니다.

이를 해결하기 위해 EVA에서는 사용자의 간단한 요청을 자동으로 구조화된 표현(Structured Query)으로 확장하는 기술을 개발하고 적용했습니다.

본 포스트에서는

  1. 왜 단순한 자연어 요청이 AI에게는 어려운지,
  2. 어떻게 쿼리를 재구성하여 AI의 이해도를 높일 수 있는지,
  3. 실제 현장 적용 시 얼마나 성능이 개선되었는지,

를 중심으로, 사용자의 의도를 구조화 하는 실질적인 방법과 효과를 공유하고자 합니다.