728x90
가끔 논문이나 컨퍼런스에가면 골드 라벨, 실버 라벨 등의 용어를 자주 듣게된다.
지도학습에 필요한 라벨은 알겠는데 골드 라벨, 실버 라벨은 뭘까? 등급이 있는 것일까?
골드라벨(Gold Lable)이란?
ChatGPT에게 한 번 물어봤다.
골드 라벨(Gold Label)은 보통 사람들이 만든 레이블이 아니라 전문가들이 만든 고품질의 레이블을 말합니다. 따라서, 골드 라벨이 부착된 데이터를 사용하면 보다 높은 정확도를 가진 모델을 만들 수 있습니다.
일반적으로, 골드 라벨을 가진 데이터를 얻는 방법은 두 가지입니다.
- 전문가에게 작업을 의뢰하여 골드 라벨을 만들어내는 방법:
전문가들이 작업한 데이터를 골드 라벨 데이터로 활용할 수 있습니다. - 이전 연구나 대회에서 골드 라벨을 얻는 방법:
이전 연구나 대회에서 사용한 데이터 중, 골드 라벨이 부착된 데이터가 공개되어 있는 경우가 있습니다. 이 경우 해당 데이터를 활용하여 모델 학습 및 평가를 진행할 수 있습니다.
위 두 가지 방법 중, 전문가에게 작업을 의뢰하여 골드 라벨을 만들어내는 것은 높은 정확도를 보장하지만, 시간과 비용이 많이 들어갑니다. 반면, 이전 연구나 대회에서 얻은 데이터는 시간과 비용을 아낄 수 있지만, 데이터의 품질이 보장되지 않을 수도 있습니다.
따라서, 골드 라벨 데이터를 확보하기 위해서는 전문가에게 작업을 의뢰하는 것이 가장 좋지만, 이에 대한 시간과 비용적인 부담이 있으므로, 이전 연구나 대회에서 골드 라벨을 얻는 방법도 고려할 수 있습니다.
정리하면,
골드 라벨은 해당 도메인에 깊은 지식을 가진 사람이 라벨링한 고귀한? 데이터라고 할 수있다.
실버 라벨은 정확히 정의하지 않았지만 일반적으로 골드 라벨보다 품질이 떨어지지만 일반 사람보다는
조금 높은? 데이터가 아닌가 싶다.
이를 테면 대규모 언어모델로 생성한 데이터, 일반 사람이 라벨했지만 검증이 잘된 데이터라고 볼 수 있겠다.
반응형
'Machine learning > NLP' 카테고리의 다른 글
[NLP]. HuggingFace Tokenizer에 token 추가(add)하기 (0) | 2023.02.27 |
---|---|
[NLP]. MultipleNegativesRankingLoss 적용기(Sentence Transfomer) (0) | 2023.02.21 |
[NLP]. 한국어 존댓말/반말 분류모델 (formal classifier) (0) | 2023.02.03 |
[NLP] KakaoGPT 사용해서 존댓말/반말 변환하기 (0) | 2023.01.04 |
[NLP]. SentenceTransformer Tokenize 멀티턴 형식으로 수정하기 (0) | 2022.12.22 |