세계 최초 리벨리온 NPU 기반의 VLM 상용화 서비스 EVA를 출시합니다
EVA팀은 리벨리온과 함께 그동안 지속적인 기술 개발을 통해 NPU 기반의 EVA 구동 환경을 성공적으로 구축해 왔습니다. 이제 단순한 기술 검증을 넘어, 실제 상용화 서비스 단계에 본격적으로 진입하 고 있음을 알려드립니다.
1. ATOM-MAX NPU 기반 성능 검증: VLM 추론의 새로운 표준 (As-Is)
최근 EVA는 리벨리온의 최신 ATOM-MAX NPU 환경에서 Qwen3 VL 8B 모델을 적용하여 운영 가능성을 평가하였습니다. 단순한 정확도 비교를 넘어, 산업 서비스 환경에 필수적인 운영 요소들을 검증한 결과입니다.
- 리벨리온 ATOM / Qwen3 VL 8B / Accuracy 0.7996 / F1 0.6733
- GPU A100 / Qwen3 VL 8B FP8 / Accuracy 0.7779 / F1 0.5979
GPU(A100)와 비교했을 때, 전반적인 추론 지표에서 동등 이상의 성능을 확보했습니다. 특히 화재 및 연기 탐지 시나리오에서는 NPU 환경이 더욱 우세한 처리 역량을 보여주며, 고난도 산업 안전 관제에서의 적용 가능성을 입증했습니다.
2. 상용 환경을 위한 최적화 및 안정성 확보 (As-Is)
실제 현장에서 AI를 쓸 때는 생각보다 신경 쓸 점이 많습니다. 텍스트와 이미지가 섞여 들어오거 나, 카메라 여러 대가 동시에 신호를 보내면 버벅거리기 쉽기 때문이죠. 이러한 문제를 해결하기 위해, EVA는 NPU 컴파일러 및 시스템 레벨의 최적화를 지속적으로 수행하고 있습니다.
CPU, 메모리, NPU를 효율적으로 나누어 쓸 수 있는 체계를 만들어서, 여러 AI Agent를 동시에 돌려도 성능이 떨어지지 않게 만드는 일이나, 예상치 못한 오류를 수정하고, 텍스트 전용 요청이나 이미지 분석 요청이 동시에 들어와도 멈춤 없이 안정적으로 돌아가도록 체계를 갖추는 것이 중요합니다.
- 복합 데이터 처리 안정화: Text Only와 Text + Image 요청이 혼재된 멀티 코어 환경에서 발생할 수 있는 오동작을 완전히 개선하여 운영 신뢰성을 높였습니다.
- 리소스 효율화: CPU, 메모리, NPU 간의 데이터 처리 정책을 정교하게 제어함으로써, 여러 VLM 인스턴스를 동시에 구동하더라도 추론 속도 저하 없는 고효율 운영 환경을 구현했습니다.
3. 병렬화 구조 기반의 Throughput 최적화 (To-Be)
EVA는 리벨리온 NPU의 멀티 코어 아키텍처를 극대화하는 풀스택 병렬화까지 기술 통합을 극해화 하기 위한 노력을 추진하고 있습니다.
- 병렬화 전략: Vision Encoder에는 데이터 병렬화(DP)를, Text Decoder에는 텐서 병렬화(TP)를 적용하여 VLM 추론의 병목을 제거하기 위한 기술 개발을 추진하고 있습니다.
- 통합 운영 전략: 여러 개의 NPU 자원을 기반으로 동시 구동 가능한 최적의 인스턴스 수와 코어 할당 비율을 정의하고 있습니다. 이를 통해 GPU 수준의 Throughput을 확보함과 동시에, 전성비(전력 대비 성능)를 획기적으로 개선하여 TCO(Total Cost of Ownership)를 대폭 절감하는 구조를 완성해 나가고 있습니다.
맺음말: 효율적인 산업 AI, 상용화의 시대로
EVA와 리벨리온 NPU의 결합은 단순한 하드웨어 교체가 아닙니다. AI 추론이 현장에서 예측 가능한 방식으로 상시 운영될 수 있도록, '고성능-고효율-고안정성'이라는 3박자를 갖춘 풀스택 서비스로 도약하는 과정입니다. 검증된 NPU 최적화 기술을 바탕으로, EVA는 더욱 합리적인 비용 구조에서 산업 현장의 디지털 전환을 가속화할 것입니다.
함께 보면 좋은 내용
세계 최초 리벨리온 NPU 기반의 VLM 상용화 서비스 EVA를 출시합니다




