본문으로 건너뛰기

"Vision ML" 태그로 연결된 2개 게시물개의 게시물이 있습니다.

컴퓨터 비전과 ML 기술 및 제조 산업 적용 사례를 다룹니다.

모든 태그 보기

Pose Estimation으로 사람 탐지 오탐 해결하기

· 약 12분
Euisuk Chung
Euisuk Chung
AI Specialist

들어가며

"저기 사람이 있어요!" AI 비전 시스템이 자신 있게 보고했습니다. 하지만 화면 속에는 빈 의자와 그 위에 걸쳐진 코트뿐이었습니다.

AI의 사람 인식 기술은 놀랍도록 발전했지만, 화려한 데모 영상과 달리 실제 현장은 훨씬 더 혼란스럽습니다. 특히 우리가 주로 다루는 환경에서는 그 문제가 더 두드러졌습니다.

  • 🏢 사무실: 빈 의자와 의자에 걸린 옷들
  • 🔬 실험실: 실험복이나 가운이 걸린 공간
  • 💼 근무 환경: 회의실, 휴게실 등 사람이 비어 있는 구역

이런 오탐(False Positive)은 단순히 “조금 틀린 결과”가 아니라, 시스템 전체의 신뢰도와 효율성에 직접적인 영향을 줍니다.

예를 들어, 에너지 절약 시스템은 잘못된 인원 수를 기준으로 조명과 냉난방을 제어하고, 보안 시스템은 ‘없는 사람’을 감시하느라 리소스를 낭비할 수도 있습니다.

예시. 빈 의자를 "앉아있는 사람"으로 오인한 사례

Attention-Based Image-Guided Detection for Domain-Specific Object Recognition

· 약 5분
Hyunchan Moon
Hyunchan Moon
AI Specialist

서론: Image-Guided Detection의 실용적 구현

Open-Vocabulary Detection 분야에서 OWL-v2 (Open-World Localization Vision Transformer v2)는 텍스트와 이미지 모두를 프롬프트로 사용할 수 있는 강력한 모델입니다. 특히 "이미지 프롬프트(Visual Prompting)"를 이용한 Image-Guided Detection은, 사용자가 예시 이미지만으로 원하는 객체를 찾게 해주는 강력한 기능입니다.

본 포스트에서는 OWL-v2의 Image-Guided Detection 방법론을 Production 환경에 맞게 구현하며 적용한 핵심 최적화 기법 3가지를 공유합니다.