Graph-powered Classification/Regression (GCR)
What is Graph-powered Classification/Regression (GCR)?
GCR은 데이터 사이언스 분야에서 널리 사용되는 머신러닝 과제인 분류 (classification)와 회귀 (regression)를 다루는 AI content입니다. 하지만, 기존의 분류/회귀 알고리즘들과는 달리 GCR은 graph representation learning 기술을 통해 주어진 데이터에 포함된 정보를 더 잘 학습할 수 있기 때문에 보다 개선된 예측 성능을 발휘합니다.
Graph representation learning은 주어진 데이터를 노드와 엣지로 구성된 그래프로 표현한 뒤, 그래프 내에서 얼마나 유사한 연결 양상을 보이는지에 따라서 각각의 데이터 값들을 머신러닝 알고리즘이 학습할 수 있는 수치값 즉, 벡터로 변환해 주는 기술입니다. 다시 말해서 원본 데이터를 머신러닝 알고리즘이 더 잘 학습할 수 있게끔 데이터에 포함된 유용한 정보들이 더 잘 드러나는 형태로 바꿔주는 일종의 피쳐 엔지니어링 기술로서, 그 과정에서 노드로 표현되는 데이터의 값들 뿐만이 아니라 엣지로 표현되는 데이터 값들 간의 관계까지 이용할 수 있어 머신러닝 알고리즘이 더 많은 유용한 정보를 이용해 학습될 수 있도록 도와줍니다.
이렇게 graph representation learning 즉, 그래프 임베딩 기술에 힘입어 성능이 개선된 머신러닝 알고리즘을 graph-powered 머신러닝 알고리즘이라고 부르며, 이런 알고리즘을 이용하는 데이터 사이언스를 그래프 데이터사이언스라고 합니다. GCR은 분류/회귀 용 머신러닝 알고리즘에 graph embedding 기술을 더하여 그 성능을 향상시킨 그래프 데이터사이언스 AI content로서, 'key features' 항목에 설명되어 있듯이 누구나 쉽고 빠르게 또한 제한된 리소스 환경에서도 그래프 데이터사이언스를 적용할 수 있도록 혁신적인 기술들이 적용되어 있습니다.
When to use Graph-powered Classification/Regression (GCR)?
GCR은 TCR (Tabular Classification/Regression) AI content와 동일하게 tabular 데이터를 입력으로 하는 다양한 분류 및 회귀 모델링에 사용되지만, 결측치가 있는 경우에도 별도의 전처리 없이 적용할 수 있습니다. 보다 구체적인 적용 분야의 예는 아래와 같습니다.
- 금융: 고객의 신용 등급 분류, 회사 부도 예측 등에 사용됩니다. 예를 들어, 고객의 개인 정보, 거래 내역, 신용 내역 등을 변수로 사용하고 고객의 신용 등급을 나타내는 라벨 컬럼이 있으면 고객의 신용 등급을 분류하는 모델을 만들 수 있습니다. 또는, 회사의 재무 정보, 시장 동향 등을 분석하여 부도를 예측하는 회귀 모델을 만들 수 있습니다.
- 의료: 환자의 의료 기록, 유전자 정보, 생체 신호 등을 입력으로 사용하여 특정 질병(예: 암, 당뇨병 등)의 유무를 분류하는 모델을 만들 수 있습니다. 이는 질병의 조기 발견과 치료에 큰 도움이 됩니다.
- 마케팅: 고객 세분화 분류, 고객 이탈 예측, 광고 효과 예측 등에 사용됩니다. 예를 들어, 고객의 구매 내역, 웹사이트 방문 기록, 개인 정보 등을 변수로 사용하고 고객 별 그룹 라벨 데이터가 존재하면 고객의 그룹을 분류하는 모델을 만들 수 있습니다. 이는 고객 관리 및 마케팅 전략 수립에 활용될 수 있습니다.
- 공공 분야: 범죄 예측, 교통량 예측, 선거 결과 예측 등에 사용됩니다. 예를 들어, 지역의 인구 통계, 과거 범죄 기록, 경제 상황 등을 입력으로 사용하여 특정 지역의 범죄 발생 가능성을 분류하는 모델을 만들 수 있습니다.
아래는 GCR을 적용한 다양한 실제 사례 중 한 가지입니다.
MQL 지수
MQL (Marketing Qualified Lead)이란 브랜드의 마케팅 활동으로 제공된 내용에 관심을 보였거나 혹은 다른 잠재 고객보다 고객으로 전환될 가능성이 높은 잠재 고객입니다. 이 적용 사례에서 내방 고객들의 다양한 반응들과 추후에 updated된 계약 성사 여부가 테이블로 정리되어 GCR이 학습하기 위한 features와 label로 사용되었습니다. 이 때, 고객들이 모든 항목에 대해 반응하지 않거나 고객에게 제시되는 질문 항목들이 바뀔 수 있으므로 데이터에는 결측치가 존재하며 고객의 응답이 대개 범주형이지만, GCR은 별도의 결측치 보완이나 범주형 데이터의 수치화 없이 적용될 수 있었으며, 데이터 간의 관계를 활용하는 graph representation learning에 힘입어 보다 정확한 모델링이 가능하였습니다.