AI Contents
AI Contents란?
AI Contents는 데이터 사이언티스트들의 풍부한 경험과 기술 노하우가 집약된 컨텐츠입니다. mellerikat에서 제공하는 AI Contents를 활용하면 AI 프로젝트를 수행하기 위해 필요한 AI Solution을 신속하게 개발할 수 있습니다. AI Contents의 코드 아키텍처는 mellerikat에서 동작 가능한 형태로 구조화되어 있어, 실험 문서 수정을 통해 도메인에 맞는 최적의 AI Solution을 개발하여, 이를 mellerikat에서 활용할 수 있습니다. AI Contents를 통해 고객의 문제를 풀기 위한 시행착오를 줄이고, AI 모델 개발 생산성을 높여 비즈니스에 AI 기술을 빠르게 적용할 수 있습니다.
핵심 기능
AI Contents는 AI Learning Organizer(ALO)를 기반으로 동작하는 디폴트 AI Solution이며 AI에 대해 잘 모르는 초보 분석가더라도 이를 바로 활용하여 운영 가능한 솔루션 을 개발할 수 있습니다. AI Contents의 주요 특징을 자세하게 살펴보겠습니다.
편리한 AI Solution 개발
AI Contents에서 제공하는 실험 계획서를 수정하면 본인의 도메인과 데이터에 맞는 AI 모델 실험을 다양하게 진행할 수 있습니다. 사용자가 AI에 대한 깊은 지식 없이도 다양한 파라미터를 조작하며 효과적인 실험을 수행할 수 있도록 합니다. AI에 대한 전문 지식이 없는 사용자도 고품질의 AI 모델을 생성하고 최적화하여 운영 가능한 솔루션 제작을 할 수 있습니다.
에셋을 조합한 풍부한 기능 활용
AI Contents는 다양한 도메인에서 발생할 수 있는 문제를 손쉽게 해결하기 위해 다양한 에셋을 제공합니다. 데이터 불균형이 존재할 때 이를 해결할 수 있는 샘플링 에셋이나 복잡한 전처리를 별도 수정없이 학습에 적합한 형태로 자동으로 처리해주는 전처리 에셋, 결손 데이터가 존재하고 데이터 간 관계를 학습하고 싶을 때 활용할 수 있는 Graph Feature Engineering(GFE) 에셋 등 기본 컨텐츠로 해결이 어려운 상황은 추가로 제공되는 에셋을 조합하여 해결할 수 있습니다. 특정 과제에서만 필요한 코드가 있다면 앞뒤에 맞춤형 커스텀 에셋을 추가하여 빠르게 개발을 끝낼 수 있습니다.
메모리 절감 및 효율적인 학습/추론 모델 제공
AI Contents는 모두 메모리 절감과 효율적인 학습/추론이 가능하도록 계발되어 있습니다. Vision Classification의 경우 일반적으로 고비용인 고해상도 이미지에 대해 효율적인 학습을 수행하기 위해 어텐션 기술을 활용한 HRVI 모델을 제공하고 있습니다. 이는 기존 MobileNetV1 대비 85% 파라미터를 절감했고 학습 시간도 절반으로 감소하면서 성능은 7% 증가한 모델로 고해상도이면서 국소 영역을 기준으로 양불 여부를 판정해야하는 제조 데이터에 대해서도 효율적으로 운영할 수 있도록 개발되어 있습니다. Graph-based Classification & Regression의 경우 일반적으로 고비용이지만 데이터 간 관계를 파악하는데 우수한 Graph Neural Network (GNN)를 자체 기술을 적용하여 저비용으로 절감하여 운영 가능한 컨텐츠로 제공하고 있습니다.
사용자 시나리오
AI Contents 사용자 시나리오는 다음과 같습니다.
-
컨텐츠 선정 및 매뉴얼 확인: 먼저, 제공된 컨텐츠 목록을 검토하고 사용할 컨텐츠를 선정한 후 해당 컨텐츠의 매뉴얼을 확인합니다.
-
설치 및 환경 설정: 데이터 사이언티스트는 개인 PC, 서버, 또는 클라우드 인프라 등 모델을 개발하고자 하는 환경에 ALO와 선정된 컨텐츠를 설치하고, 이를 위한 가상환경을 설정합니다.
-
실험 계획서 수정: 실험 계획서(Experimental_plan.yaml) 파일에서 데이터 경로, x_columns 등 필수 항목을 수정하여 준비합니다.
-
실험 실행: 준비된 실험 계획서를 수정한 후, 분석을 수행할 경우 Jupyter Notebook에서, 결과만 확인할 경우 터미널에서 실행하여 실험을 진행합니다.
-
파라미터 설정: 현업에서 사용할 파라미터(ui_args)를 선정하고, ui_args_detail 파일을 수정하여 구체적인 설정을 합니다.
-
AI Solution 등록: AI Solution 등록 가이드에 따라 수정된 파라미터와 실험 결과를 기반으로 AI Solution을 등록합니다. 이를 통해 AI Solution 개발이 완료됩니다.
AI Contents 목록
Anomaly Detection (AD)
지속적으로 수집되는 지수/인덱스 데이터 또는 각종 수치 데이터에 대해 정상 패턴을 학습하고 모니터링하면서 비정상적인 패턴이나 시점을 실시간으로 감지하고 알려주는 기술입니다. 설비 이상 감지, 조기 이상 탐지, 다변량 이상 탐지 등 다양한 도메인에 적용할 수 있습니다. Anomaly Detection은 통계 기반으로 다수의 데이터에서 동떨어진 이상 데이터 포인트를 감지하는 Point Anomaly Detection을 제공합니다.
Forecasting (FCST)
타겟 시계열 변수의 과거 패턴 및 주변 인자들의 영향을 학습하고 미래의 트렌드와 패턴을 예측하는 기술입니다. 몇 가지 설정만으로 간편하게 딥러닝 기반 시계열 예측 알고리즘을 사용할 수 있습니다. 제품 수요 예측이나 매출/재고 예측을 통해 SCM, 영업, 마케팅 등 다양한 도메인에 적용할 수 있습니다. 현재 Nbeats 알고리즘을 제공합니다.
Graph-powered Classification & Regression (GCR)
타겟변수에 영향를 미치는 여러 인자들의 값 뿐 아니라 인자들 간의 관계를 그래프로 표현하여 학습함으로써 개선된 추론 성능을 제공하며, 특히 대량의 결측치 및 범주형 인자가 포함된 데이터에 대해서도 정보 손실 없이 대응이 가능한 분류 및 회귀 용 머신러닝 기술입니다. GCR은 Pytorch BigGraph Library에 기반하며 자사 개발 Inductive Graph Embedding 기술 및 경량 Graph XAI 기술이 적용되어 기존의 Graph-powered 머신러닝 알고리즘들의 단점인 큰 메모리와 오랜 수행 시간을 대폭 해소하였습니다. TCR 등에 사용되는 일반적인 분류 및 회귀 용 테이블형 데이터를 입력하면 그래프 생성 및 그래프 임베딩을 자동으로 진행해 학습 및 예측을 실시하므로, 별도의 결측치 처리나 피처 엔지니어링 없이 고객 지수, MQL 지수, 추천 시스템, 다양한 분류 및 회귀 추론 문제들에 손쉽게 그래프 데이터사이언스를 적용해 보실 수 있습니다.
Tabular Anomaly Detection (TAD)
구조화된 테이블형 데이터(예: 스프레드시트, 데이터베이스 테이블)를 분석하여 이상 탐지를 수행하는 기술입니다. TAD는 수치형 및 범주형 데이터를 포함한 다양한 특성을 학습하여 비정상적인 패턴, 트렌드 또는 분류를 식별할 수 있습니다. 딥러닝, 머신러닝 및 통계 기반 방법론을 활용하여 정상 패턴을 학습하고, 이와 다른 이상 행위를 감지합니다. 이를 통해 금융 거래의 부정 행위 탐지, 제조업 품질 관리, 네트워크 보안, 헬스케어 데이터 분석 등 광범위한 분야에서 활용될 수 있습니다. TAD는 다변량 이상 탐지나 시계열 데이터의 복잡한 패턴을 처리하며, 비즈니스에서 발생할 수 있는 다양한 문제를 사전에 예방할 수 있는 강력한 도구입니다.