Manage dataset
Dataset은 AI 모델의 학습을 위한 중요한 도구로, 다양한 타입의 데이터를. 그리고 다양한 소스로부터의 데이터를 관리하고 활용할 수 있습니다. Edge Conductor의 Dataset은 복수 개의 Data들의 집합이며, 각각의 Data는 Image(.jpg) 또는 Tabular(.csv) 파일(File) 형태로 존재합니다. 즉, Dataset은 같은 목적과 성격을 갖는 여러 Data file의 집합이라고 할 수 있습니다.Dataset은 유사한 데이터들의 그룹임을 넘어, 그 목적은 AI Solution의 Model 학습 데이터로서의 활용이기 때문에, Dataset을 사용할 AI Solution을 속성으로 갖습니다.
Create Dataset
Dataset → New Dataset
AI Solution을 선택하고 Data Source를 선택하여 DataSet을 생성합니다.
Select AI solution
Dataset 생성할 때에는 AI Solution을 선택합니다. AI Solution 안에는 Data의 type, relabeling 지원 여부가 정의되어 있으며, 데이터 명세서에서 요구하는 형식에 맞는 데이터를 요구합니다. 즉, 하나의 Dataset은 여러 Solution에서 공통적으로 사용될 수 없고, AI Solution의 속성과 Dataset이 정확하게 매칭되어야만, AI model 이 정상적으로 동작할 수 있습니다. 반대로 하나 이상의 Dataset은 동일한 Solution을 선택될 수 있습니다. 동일한 Solution을 선택한 Dataset은 동일한 데이터 명세를 가지며, 추후에 학습할 때 함께 학습데이터로 선택될 수 있습니다.
Data source
현재 시스템은 Dataset을 생성하기 위한 Data source로 Edge, Local, S3를 지원합니다.
Edge
Edge로부터 수집한 Inference 결과를 모아 Dataset을 생성할 수 있습니다. 실제 환경에서 생성된 데이터를 반영하여 모델을 학습할 수 있습니다. 사용자는 하나이상의 edges로부터, 그리고 특정 날짜범위의 데이터들을 일괄적으로 수집하여 dataset을 생성할 수 있습니다. Dataset에서 설정된 solution과 동일한 solution 수행중인 edge로부터만 데이터를 수집할 수 있습니다. 수집단계에서 원하는 Edge가 리스트에서 보이지 않는다면 Edge에서 수행중인 Solution 정보와 데이터셋의 Solution 정보가 동일한지 확인하세요.
Local
로컬 PC에 저장된 데이터를 업로드하여 Dataset을 생성할 수 있습니다. AI Operator는 자체 데이터를 효율적으로 활용할 수 있습니다. 시스템이 원하는 파일 형태는 Dataset spec. 항목참고
S3
AWS S3에 저장된 데이터와 Dataset을 연결하여 활용할 수 있습니다. 다른 데이터타입과 달리 Edge Conductor내의 물리적인 저장공간에 데이터를 적재하지 않습니다. S3 공간에서 바로 학습데이터로 활용합니다. 이를통해 대용량 데이터를 효율적으로 관리하고 활용할 수 있습니다. 현재 tabluar format의 파일정의만 지원하고 있으며, 추후 다양한 format 및 복수파일 및 폴더 지원 예정입니다. S3 bucket 및 prefix는 edge conductor에서 접근 권한을 가져야 합니다. S3 클라우드 자원에 대한 권한은 Edge Conductor 시스템 설치할 때 설정되며 권한문제가 있다면 시스템관리자에게 문의바랍니다.
To create dataset
- 좌측 Navigator Bar 에서 ‘Dataset’을 선택하세요.
- 우측 상단 ‘New Dataset’ 버튼을 눌러 진입하세요.
- Name, Tag 등 메타 정보를 입력하세요. Name은 다른 Dataset들과 헷갈리는 일 없도록 입력하시고, Tag는 검색 시 활용됩니다.
- AI Solution을 선택하세요. Dataset을 만드는 목적에 맞는 AI Solution을 선택하세요. AI Solution의 특성에 따라 Dataset 에서 사용 가능한 기능이 달라질 수 있습 니다.
- Data Source를 선택하세요. 5-1. Edge : Edge 에서 수행된 Inference 결과들을 모아 Dataset을 생성합니다. 5-2. Local : Local PC에 저장된 파일을 업로드하여 Dataset을 생성합니다. 5-3. AWS S3 : AWS S3에 저장되어 있는 파일을 링크(Link)합니다.
- 선택한 Data Source에 따라 제공되는 시스템 가이드에 따라서 DataSet에 들어갈 파일을 선택하세요.
Edit(Delete) Dataset
Dataset → Actions → Edit(Delete) Dataset
생성된 Dataset을 편집합니다. Dataset 이름을 바꾸거나, 포함되어 있는 특정 파일들을 데이터셋에서 제거할 수 있습니다. 더 이상 사용하지 않는 데이터셋은 삭제 할 수 있습니다.
To edit(delete) dataset
- 좌측 Navigator Bar 에서 ‘Dataset’을 선택하세요.
- 시스템에 등록되어 있는 dataset을 확인하고, edit(delete) 원하는 항목을 선택
- 'Actions' 에서 edit(delete)를 선택합니다.
Dataset spec.
Edge Conductor의 Dataset은 Tabular(.csv) 또는 Image(.jpg)를 지원합니다. 단, AWS S3 Link 방식은, Spec 외 데이터를 저장하는 것이 가능합니다. Spec을 벗어나는 데이터 의 경우 AWS S3를 활용하여 Dataset을 생성하세요.
- Tabular Data
- File Extension : CSV
- Encoding : UTF-8
- Max size of a file : 300 MB
- Upload format : a zip file of CSV files (Each CSV file should have same format)
- Image Data
- File Extension : JPG, JPEG, PNG
- Upload format : a zip file of image files, with labeled folders
- Example
./{label1}/{}
└ image1.png
└ image1.jpeg
└ image2.jpeg
./{label2}/{}
└ image1.png
└ image1.jpeg