3-3. GT 데이터셋 생성
GT 데이터셋 생성 / GT 데이터셋 수정
GT 데이터셋(Ground Truth Dataset, GT Dataset)은 인공지능 모델이 학습할 때 정답(참값)으로 사용하는 데이터를 의미합니다. 라벨링이 완료된 데이터를 학습에 사용할 수 있도록 GT로 등록하여 GT 데이터셋을 구성합니다.
GT 데이터 생성
용어 및 기능 명칭 | 설명 |
---|---|
GT 데이터셋 | GT 데이터셋(Ground Dataset, GT Dataset)은 인공지능 모델이 학습할 때 정답(참값)으로 사용하는 데이터들의 모음 |
작업 ID | 작업에 부여가 된 고유의 값 |
데이터 유닛 ID | 각각의 데이터 유닛에 부여하는 고유의 값을 의미하며, 특정 데이터 유닛을 찾을 때 용이함 |
학습구성(Train, Validation, Test) | 머신러닝 모델 학습 시 데이터를 훈련(Train), 검증(Validation), 테스트(Test)셋을 일정한 비율로 나누어 배정하는 것을 의미. 일반적인 학습 구성은 8:1:1 정도로 구성됨 |
-
GT 데이터셋을 생성하고자 하는 프로젝트에 들어간 후, 좌측 메뉴에서 데이터셋 탭을 선택하고 GT 데이터셋 탭으로 이동합니다.
-
우측 상단의
GT추가
버튼을 클릭한 뒤, GT 데이터 추가 팝업창에서 원하는 옵션을 선택하고추가
버튼을 누릅니다.프로젝트에서 추가하기 팝업창에서 원하는 GT데이터를 선택하여 GT추가 버튼을 클릭합니다.
-
프로젝트에서 추가하기 : 해당 프로젝트의 작업 혹은 할당작업에 저장되어 있는 라벨링 데이터를 GT데이터로 불러옵니다.
-
이전 GT데이터셋 버전에서 추가하기 : 이전에 생성한 GT 데이터셋 버전이 있다면, 해당 버전의 데이터를 불러올 수 있습니다. GT 데이터셋을 한 번도 생성한 적이 없다면 선택할 수 없습니다.
-
-
선택한 GT 데이터가 목록에 추가된 것을 확인합니다. 데이터 유닛**
체크박스
**를 선택 후 나타나는 액션바에서데이터 구성비 변경
버튼을 클릭하면 비율 설정 창이 열립니다. 기본 구성비는 8:1:1로 설정되어 있으나, 원하는 비율로 수정할 수 있습니다. 구성비를 변경한 후,적용
버튼을 클릭하면, 해당 비율에 따라 GT데이터의 학습 구성이 자동 선택된 것을 확인 할 수 있습니다.
데이터 구성비란?
머신러닝 모델 학습 시 데이터를 훈련(Train), 검증(Validation), 테스트(Test)셋을 일정한 비율로 나누어 배정하는 것을 의미하며, 일반적인 학습 구성은 8:1:1 정도로 구성됩니다.
- Train : 훈련 데이터로, 모델이 패턴을 학습하는 데 사용하는 데이터이며 데이터셋의 대부분을 차지합니다.
- Validation : 검증 데이터은 모델 학습 중 성능을 평가하고, 과적합(Overfitting) 여부를 확인하는 데이터이며, 모델이 잘 일반화되고 있는지 확인하는 데이터입니다.
- Test : 테스트 데이터는 최종 모델의 성능을 평가하는 데 사용하는 데이터이며, 모델의 최종 성능을 평가하는 데이터입니다.
-
업데이트가 필요한 GT데이터가 있을 경우, 해당 항목의 **
체크박스
**를 선택한 후 나타나는 액션바에서,GT업테이트
버튼을 클릭합니다. 원하는 업데이트 항목을 선택하고업데이트
버튼을 눌러 변경을 완료합니다.
GT 데이터 업데이트 기능 안내
GT 데이터 업데이트 기능은 다음 두 가지 방식으로 GT 데이터를 (수정된 작업 데이터의) 최신 상태로 유지하거나, 이전 (GT 데이터셋)버전의 데이터를 불러올 수 있도록 지원하는 기능입니다.
- 프로젝트에서 업데이트 하기수정된 내용을 기반으로 GT 데이터에 반영할 수 있도록 불러오는 기능입니다.
- 이전 GT 데이터셋 버전에서 업데이트이전에 생성된 GT 데이터셋 버전에 포함된 GT 데이터를 불러오는 기능입니다.
-
데이터와 학습 구성이 설정이 완료되면, 우측 상단의
버전 저장
버튼을 클릭하여 해당 GT버전을 저장합니다. GT 데이터셋 버전은 총 3가지 방식으로 저장할 수 있으며, 기본값은 Minor설정이 되어 있습니다. 모든 옵션 보기를 활성화하면 다음과 같은 버전 유형을 선택할 수 있습니다.
- Major : 학습 구조 변경이나 전체 데이터 교체 등 중요한 변경 사항이 있을 때 선택합니다. 버전 저장 시, 버전 번호의 첫 번째 자리가 변경됩니다. 예) 1.0.0
- Minor : 데이터 수정이나 일부 항목 업데이트 등 일반적인 변경 사항이 있을 때 선택합니다. 버전 저장 시, 두 번째 자리가 변경됩니다. 예) 0.1.0
- Patch : 일부 데이터 값 변경이나 경미한 라벨 수정 등 소규모 변경 사항이 있을 때 선택합니다. 버전 저장 시, 세 번째 자리가 변경됩니다. 예) 0.0.1
-
GT 버전을 저장하면, 해당 GT 데이터셋의 학습 구성 비율을 바 그래프로 확인할 수 있으며, GT 데이터셋 이름 옆에는 버전 유형에 따른 번호가 붙는 것을 확인할 수 있습니다.
GT 데이터 수정
-
버전을 저장한 GT 데이터셋을 수정하려면, GT 데이터셋 이름 우측 끝의 **
아래 화살표
**를 클릭한 후, 나타나는 드롭다운 목록에서GT수정
버튼을 클릭합니다. -
GT수정 버튼을 클릭하면, 우측 상단에 GT추가 버튼과 버전 저장버튼이 활성화된 것을 확인할 수 있습니다. GT 데이터 목록에서 데이터를 추가, 수정, 삭제하거나 학습 구성을 변경한 뒤 버전 저장을 클릭해 새로운 GT 데이터셋을 생성합니다. (GT업테이트. 데이터 구성비 변경, 삭제)
-
생성한 GT 데이터셋은, GT 데이터셋 이름 우측 끝의 아래 화살표를 클릭하면 나타나는 드롭다운 목록에서 확인할 수 있습니다.
GT 데이터셋을 삭제하고 싶어요!
GT 데이터셋은 삭제가 아닌 버전 수정 방식으로 계속해서 저장되는 형태로 관리됩니다. 한 번 생성된 GT 데이터셋은 사용자가 직접 삭제할 수 없으며, 삭제가 필요한 경우에는 관리자를 통해 요청해주세요.
Updated 5 days ago