AD Input and Artifacts
Updated 2024.05.17
데이터 준비
학습 데이터 준비
- 이상 탐지를 하고자 하는 포인트들이 컬럼으로 이루어진 csv 파일을 준비합니다.
- 모든 csv 파일은 해당 row를 식별할 수 있는 time column이 존재해야 합니다.
- 만약 time column이 중복되는 경우 이를 drop 하도록 설정할 수 있습니다. 만약 drop하지 않는 경우 row별로 식별이 가능하도록 하는 컬럼들이 별도로 존재해야 합니다.
- label 컬럼은 optional 합니다. 만약 존재하는 경우 x 컬럼 별로 모두 존재해야 합니다.
- 그룹 별로 묶는 경우 그룹 별로 묶기 위한 컬럼이 존재해야 합니다.
학습 데이터셋 예시
time_col | x_col_1 | x_col_2 | grouupkey |
---|---|---|---|
time 1 | value 1_1 | value 1_2 | group1 |
time 2 | value 2_1 | value2_2 | group2 |
time 3 | value 3_1 | value3_2 | group1 |
... | ... | ... | ... |
input data directory 구조 예시
- ALO를 사용하기 위해서는 train과 inference 파일이 분리되어야 합니다. 아래와 같이 학습에 사용할 데이터와 추론에 사용할 데이터를 구분해주세요.
- 하나의 폴더 아래 있는 모든 파일을 input asset에서 취합해 하나의 dataframe으로 만든 후 모델링에 사용됩니다. (경로 밑 하위 폴더 안에 있는 파일도 합쳐집니다.)
- 하나의 폴더 안에 있는 데이터의 컬럼은 모두 동일해야 합니다.
./{train_folder}/
└ train_data1.csv
└ train_data2.csv
└ train_data3.csv
./{inference_folder}/
└ inference_data1.csv
└ inference_data2.csv
└ inference_data3.csv