본문으로 건너뛰기

PoV on Physical AI

· 약 6분
Daniel Cho
Daniel Cho
Mellerikat Leader

로봇 AI를 넘어...

Physical AI라는 개념은 흔히 로봇 기술과 동일시됩니다. 많은 분들이 로봇이라는 물리적 폼팩터가 공간을 자유롭게 이동하고, 인간의 일을 대신 수행하는 미래를 상상하지만, 현실의 기술 발전 속도는 이러한 상상을 구현하기까지 아직 상당한 시간이 필요합니다. 그럼에도 많은 논의가 로봇 중심의 시각에 머물러 있는 것은 아쉬운 일입니다. Physical AI는 로봇이라는 형태로만 구현될 필요가 없으며, 이미 우리 주변에는 물리적 세계와 상호작용할 수 있는 훨씬 다양한 인터페이스가 존재합니다.




물리적 세계는 이미 수많은 ‘인터페이스’를 갖추고 있습니다

실제 우리 주변의 세상은 이미 수많은 물체(Objects)와 시스템으로 구성되어 있으며, 인간은 이들과 끊임없이 상호작용하며 살아가고 있습니다. 불이 나면 화재 경보 버튼을 눌러 대피 신호를 보내고, 작업장에서 위험이 감지되면 비상 정지 버튼을 눌러 기계를 멈춥니다. 이 모든 행위는 인간의 인지(Cognition)물리적 행동(Physical Action)의 연결 고리입니다.

이를 기반으로, Physical AI를 다음과 같이 정의할 수 있습니다:

AI가 시각적/감각적 정보를 통해 물리적 세계의 상황을 정확히 이해하고(Perception & Understanding), 그 이해를 바탕으로 물리적 세계에 직간접적으로 영향을 미치는 행동(Action)을 수행하는 모든 형태의 지능 시스템입니다.

여기서 중요한 것은 인간의 ‘시각 기반 이해 → 행동’이라는 프로세스는 물리적 형태를 갖춘 다양한 환경에서 활용할 수 있다는 점입니다. 카메라가 이미 세상을 보고 있고, AI가 장면을 이해할 수 있으며, 기존의 물리적 시스템은 신호를 받아 액션을 수행할 수 있다면, 우리는 이미 Physical AI의 초기 형태를 갖추고 있는 셈입니다.




수십억 대의 CCTV 카메라가 그 시작점이 될 수 있습니다

수십억 대에 달하는 CCTV 카메라는 이미 전 세계 곳곳에 분포된 ‘눈’입니다. 이 방대한 시각 데이터가 AI 모델에 의해 실시간으로 분석될 때, AI는 물리적 세계에서 일어나는 변화를 인간보다 빠르고 안정적으로 감지할 수 있습니다. 그리고 감지한 결과는 다음과 같은 다양한 물리적 액션으로 연결될 수 있습니다.

  • 생산 현장의 CCTV 영상에서 위험 동작이 탐지되면 즉시 알람을 발생시키고, 고위험 상황으로 판단되면 장비 가동을 자동으로 중단할 수도 있습니다.
  • 늦은 시간 매장이나 주택에서 이상 징후가 발견되면 소유자에게 즉각 알림을 보내거나, 출입 통제를 일시적으로 강화할 수 있습니다.
  • 설비의 미세한 진동, 누수, 연기 등 사람이 놓칠 수 있는 징후를 AI가 감지하여 사전에 경고할 수 있습니다.

핵심은 AI가 물리적 세계를 이해하는 두뇌 역할을 한다는 점이며, 이를 통해 실제 물리적 변화까지 트리거(Trigger)할 수 있을 때 Physical AI의 가치가 극대화됩니다.




‘카메라 + 두뇌 + 인터페이스’ 구조의 Physical AI

Physical AI의 본질은 특정 폼팩터가 아니라 다음의 구성 요소로 정의할 수 있습니다:

(1) 지각 – Perception 카메라, 마이크, 레이더, 진동센서 등에서 오는 신호를 수집하고 이해하는 단계입니다.

(2) 이해 능력을 갖춘 두뇌(AI 모델) 추론 – Reasoning Multimodal Perception, VLM(Vision-Language Model) 기반 상황 이해, 행동 예측 등을 통해 관찰된 세계에서 무엇이 일어나고 있는지를 판단합니다.

  • “작업자가 위험구역에 진입한 것 같습니다.”
  • “설비 동작 패턴이 비정상적으로 변화하고 있습니다.”

(3) 물리적 세계에 영향을 줄 수 있는 다양한 액추에이터 기반 액션 – Action 알람 시스템, 기계 정지 버튼, 도어락, 생산라인 제어 시스템, IoT 장비 등 판단 결과를 물리적 세계에 전달해 실제 변화를 일으키는 단계입니다.

이 세 요소가 연결되는 순간, 로봇이라는 물리적 구현체 없이도 AI는 ‘물리 세계와 상호작용하는 존재’가 됩니다. 즉, Physical AI는 ‘로봇 중심의 기술’이 아니라 ‘세상을 보고 이해하고 반응하는 AI 아키텍처’로 재정의될 필요가 있습니다.




테슬라 자율주행이 보여주는 Physical AI

테슬라의 자율주행 기술은 Physical AI의 정의를 가장 명확하게 보여주는 사례 중 하나입니다. 테슬라 차량은 사람이 타고 다니는 복잡한 로봇이 아니지만, 물리적 세계에서 가장 중요한 역할을 수행하는 장치입니다.

  • ‘눈’ (Perception): 차량에 장착된 카메라와 센서는 도로, 다른 차량, 보행자, 신호등 등 주변 물리적 세계의 모든 정보를 실시간으로 수집합니다.
  • ‘두뇌’ (Understanding & Cognition): 이 데이터를 기반으로 AI는 운전 상황을 이해하고, 가장 안전하고 효율적인 경로와 행동(조향, 가속, 제동)을 결정합니다.
  • ‘행동’ (Action): AI의 결정은 차량의 스티어링 휠, 브레이크, 가속 페달을 직접 제어하여 물리적인 움직임으로 현실화됩니다.

자동차를 중심으로 한 물리적 세계를 카메라와 AI를 기반으로 이해하고 제어하는 것이 바로 자율주행 Physical AI의 핵심입니다.




이미 눈 앞에 다가온 Physical AI

이렇게 Physical AI는 이미 우리 주변에서 강력한 영향력을 발휘할 수 있습니다. 생산 현장에 설치된 CCTV(Closed-Circuit Television)는 이미 수십억 대가 존재하는 물리적 세계의 ‘눈’입니다. 이 CCTV에서 들어오는 실시간 시각 데이터를 AI가 분석하여 작업자가 안전 구역을 침범하거나, 위험한 자세로 작업하는 것이 감지되면 즉시 알람을 울려 경각심을 줄 수 있습니다. 특정 유형의 사고 발생이 임박했다고 예측되면, AI가 직접 기계의 작동을 일시적으로 멈추는 신호를 보낼 수 있습니다.

늦은 밤, 빈 상점이나 주택에 외부인이 침입하는 상황이 CCTV나 센서를 통해 감지되면, AI는 사용자에게 푸시 알람을 보내고, 나아가 실내 조명을 켜거나 경보음을 울려 침입자를 위협하는 등의 물리적 대응을 할 수 있습니다.

이는 물리적 세계에 대한 AI의 이해가 경고음이나 시스템 제어 신호라는 형태로 직접적인 물리적 영향을 미치는 훌륭한 Physical AI의 예시입니다. 이처럼 Physical AI는 로봇 팔을 움직이는 것뿐만 아니라, 기존 인프라(CCTV, 센서, 네트워크화된 기기)를 활용하여 물리적 세계와 아주 다양한 형태로 상호작용(Interaction)하고 있습니다.




Physical AI가 확산될 수밖에 없는 이유

Physical AI는 로봇 기술을 넘어 빠르게 확산될 수밖에 없는 이유는 다음과 같습니다:

  • 인프라 구축 비용 절감 이미 존재하는 CCTV, 센서, IoT 디바이스를 활용하기 때문에 새로운 하드웨어(로봇) 구축에 드는 초기 비용이 절감됩니다.
  • 실시간 의사결정의 경제적 가치 물리적 사고 예방, 생산 라인 중단 방지, 범죄 대응 등은 모두 즉각적인 금전적 가치와 안전이라는 사회적 가치를 창출합니다.
  • CPS(Cyber-Physical System)와의 자연스러운 통합 공장, 건물, 도시 인프라는 이미 소프트웨어로 제어되는 CPS 환경으로 진화하고 있어, AI가 물리적 제어 시스템에 쉽게 연결될 수 있는 구조를 갖추고 있습니다.



Physical AI의 시작은 물리적 세계가 AI의 눈과 두뇌에 연결되는 순간입니다

Physical AI는 먼 미래의 기술이 아니라, 우리가 가진 인프라 위에서 지금 당장 구현 가능한 구조입니다. 로봇이라는 폼팩터에 갇혀 생각하기보다, 이미 세상 곳곳에 존재하는 카메라와 IoT 장치들을 AI의 두뇌와 연결한다면, 물리적 세계의 안전, 효율, 보안을 획기적으로 높일 수 있습니다.

향후 기술 발전의 중심은 세상을 이해하는 AI 두뇌를 얼마나 정교하게 만들고, 이 두뇌와 다양한 물리적 액션 인터페이스를 얼마나 효율적으로 연결하느냐에 달려 있을 것입니다. Physical AI의 진화는 로봇이 걷기 시작하는 순간이 아니라, 세계 전체가 AI에 의해 관찰되고 반응하는 구조로 전환되는 시점에서 본격적으로 시작됩니다.