Tabular Classification/Regression (TCR) for ALO-ML v3
What is Tabular Classification/Regression?
TCR은 Tabular Classification/Regression의 약자로, Tabular 형태의 데이터 분류(classification)와 회귀(regression) 문제를 풀기 위한 AI 컨텐츠입니다. TCR은 분류, 회귀 문제를 해결하기 위해 다양한 머신러닝 모델을 제공합니다. TCR은 데이터 분석가들이 수 년간 다양한 분류, 회귀 문제를 해결했던 노하우를 담아 머신러닝 모델들을 선정하고 각 모델에 맞는 best parameter를 찾아 탑재해 놓았습니다. 각 노하우가 담긴 모델들을 가지고 TCR은 모델 간 성능을 비교하여 최적의 모델을 찾아줍니다. TCR의 강점으로 사용하기 쉽다는 것을 꼽을 수 있습니다. 사용자가 TCR의 experimental_plan.yaml 파일에 몇 가지 파라미터를 입력하고 ALO를 실행하면, 입력된 데이터에 대해 원하는 분류 및 회귀 모델을 생성할 수 있습니다. TCR은 모델링 외에도 Tabular 데이터위한 다양한 기능이 탑재되어있습니다. TCR의 pipeline을 따라가면, 먼저 데이터가 모델링에 적합한지 검사하고, 통과 된 데이터는 자동으로 전처리가 적용되며 마지막으로 분류 및 회귀 모델링을 통해 최종 모델과 예측 결과를 생성합니다. TCR의 검사, 전처리, HPO기능에 별도의 세팅 없이 자동화 되어 동작하기 때문에 사용자는 많은 파라미터 세팅 없이도 간편하고 쉽게 모델링이 가능합니다. 추가적으로, TCR은 모델 실험에 탬플릿 파일을 만들어 별도의 머신러닝 모델을 TCR에 추가하면 기존 TCR 모델리스트에 추가하여 쉽게 새로운 모델을 탑재하고, 기존의 모델들과 HPO를 돌릴 수 있습니다
When to use Tabular Classification/Regression?
TCR은 Tabular 데이터를 활용한 다양한 분류(classification) 및 회귀(regression) 모델링에 사용될 수 있습니다. 분야를 가리지 않고, 표 형태의 데이터 안에 여러 변수와 라벨 컬럼이 존재한다면 TCR을 적용할 수 있습니다. TCR은 아래와 같은 분야 등에 활용할 수 있습니다.
- 금융: 고객의 신용 등급 분류, 회사 부도 예측 등에 사용됩니다. 예를 들어, 고객의 개인 정보, 거래 내역, 신용 내역, 그리고 고객의 신용 등급을 나타내는 라벨이 존재하면 고객의 신용 등급을 분류하는 모델을 만들 수 있습니다. 또는, 회사의 재무 정보, 시장 동향 등을 분석하여 부도를 예측하는 회귀 모델을 만들 수 있습니다.
- 의료: 환자의 의료 기록, 유전자 정보, 생체 신호 등을 입력으로 사용하여 특정 질병(예: 암, 당뇨병 등)의 유무를 분류하는 모델을 만들 수 있습니다. 이는 질병의 조기 발견과 치료에 큰 도움이 됩니다.
- 마케팅: 고객 세분화 분류, 고객 이탈 예측, 광고 효과 예측 등에 사용됩니다. 예를 들어, 고객의 구매 내역, 웹사이트 방문 기록, 개인 정보 등을 변수로 사용하고 고객 별 그룹 라벨 데이터가 존재하면 고객의 그룹을 분류하는 모델을 만들 수 있습니다. 이는 고객 관리 및 마케팅 전략 수립에 활용될 수 있습니다.
- 공공 분야: 범죄 예측, 교통량 예측, 선거 결과 예측 등에 사용됩니다. 예를 들어, 지역의 인구 통계, 과거 범죄 기록, 경제 상황 등을 입력으로 사용하여 특정 지역의 범죄 발생 가능성을 분류하는 모델을 만들 수 있습니다.
아래는 실제 TCR을 적용한 다양한 실제 사례 중 두가지입니다.
Bolt Fastening Inspection
Bolt Fastening Inspection은 볼트 체결 과정에서 발생하는 토크와 각도 데이터를 분석하여 볼트의 정상 체결 여부를 판정하는 솔루션입니다. Bolt Fastening Inspection은 TCR로 개발되었고, 현재 LG 마그나 라모스 공장의 볼트 체결 라인에서 볼트 혼용의 위험도가 높은 18개 공정에 운영 중입니다.
고객지수개발
TCR은 다양한 고객지수개발에 활용되고 있습니다. 잠재적인 고객들의 불만 사항 발견을 위한 '고객 만족도 지수'와 '고객 경험 전달 지수', ThinQ활용 고객들의 경험 개선을 위한 고객지수인 'ThinQ 홈 고객 지수'가 TCR로 개발되었으며, 고객지수플랫폼에 TCR이 기본 모델로 내장되어 고객지수 개발에 활발히 사용되고 있습니다.
Key Features
AutoML 기능을 통한 모델링 자동화
데이터 분석가는 더 이상 모델링을 신경 쓰지 않으셔도 됩니다. TCR은 데이터 분석가가 데이터 발굴 및 분석에 집중할 수 있도록 모델링에 필요한 과정을 자동화 하여 AutoML 기능으로 제공하고 있습니다. AutoML 기능을 통해서 TCR은 모델 별 데이터에 적합한 하이퍼파라미터를 선택하고 최적 모델을 선정합니다. 또한, TCR에는 데이터 분석가들이 가장 자주 사용하는 Top 5 머신러닝 모델과, 각 모델에 대한 하이퍼파라미터 세트가 내장되어 있습니다. TCR을 사용하면 손쉽게 데이터 분석가들이 자주 사용하는 모델들을 데이터에 적용하고 성능비교를 통해 Best 모델을 선정할 수 있습니다.
클래스 불균형 처리 및 데이터 전처리 노하우 탑재
TCR에는 데이터 분석가들의 실전 노하우를 바탕으로 개발된 데이터 검사 및 결측치 처리 기능이 탑재되어있습니다. 사용자가 모델링에 필요한 전처리 방법론을 지정하지 않아도, TCR은 데이터의 컬럼 유형 및 데이터 결측 비율을 파악하여 모델링에 적합한 전처리 방법론을 알아서 적용합니다. 사용자는 데이터에 대한 정보만 TCR에 입력해주면 데이터 검사, 전처리, 모델링까지 데이터 분석가의 노하우를 그대 로 데이터에 적용할 수 있습니다
코딩 없이 가능한 풍부한 모델링 실험
TCR에서는 다양한 모델링 실험을 위해 고급 데이터 분석가가 선정한 실험 파라미터들을 제공하고 있습니다. 유저는 TCR의 user arguments guide를 참고하여 다양한 전처리, 모델링 실험 조건을 experimental_plan.yaml에 입력하고 원하는 세팅 값으로 TCR을 실행할 수 있습니다. 실험 파라미터를 yaml파일에 작성만 하면 전처리 - 모델링까지 다양한 테스트 케이스를 생성하여 실험을 진행할 수 있습니다. 모델링 실험에 코딩은 더 이상 필요 없습니다. 입력한 데이터에 꼭 맞는 최적의 모델을 TCR의 파라미터 설정으로 찾아보세요.
Quick Start
설치하기
- ALO를 설치해주세요. 자세히 보기: Use AI Contents
- 하기 git 주소를 활용하여 컨텐츠를 설치해주세요.
- 설치 코드: git clone https://github.com/mellerikat-aicontents/Tabular-Classification-Regression.git -b v3.0.0 solution (ALO 설치 폴더 내에서 실행)
필수 parameter 설정
-
solution/experimental_plan.yaml
내 아래 데이터 경로를 사용자 경로로 수정해주세요.train:
dataset_uri: [train_dataset/] # 사용자 데이터 경로로 변경
inference:
dataset_uri: inference_dataset/ # 사용자 데이터 경로로 변경 -
function: readiness
의 'argument'에 train data에 맞는x_columns
와 'y_column'을 입력해주세요readiness:
def: pipeline.readiness
argument:
x_columns: [input_x0,input_x1,input_x2,input_x3]
y_column: target -
위 1,2만 설정하고 ALO를 실행하면 classification 혹은 regression 모델을 생성할 수 있습니다! 좀 더 데이터에 맞는 모델을 생성하기 위해 고급 파라미터 설정을 원하는 경우 우측 페이지를 참고해주세요. 자세히보기: TCR AI Parameter
실행하기
- terminal에서 ALO가 설치 된 경로로 이동 후
alo run
명령어를 실행하면 됩니다. 자세히 보기: Use AI Contents
Topics
TCR Version: 3.0.0 & ALO Version: 3.0.0