대규모 사전 학습 언어모델이 다운스트림 태스크를 학습하는 방식은 크게 3가지가 있습니다.
Fine-tuning
: 다운스트림 태스크 데이터 전체를 사용합니다. 다운 스트림 데이터에 맞게 모델 전체을 업데이트합니다.
- 문서 분류 , 자연어 추론 , 질의응답 , 문장 생성
Prompt tuning
: 다운스트림 태스크 데이터 전체를 사용합니다. 다운스트림 데이터에 맞게 모델 일부만 업데이트합니다.
In-context learning
: 다운스트림 태스크 데이터의 일부만 사용합니다. 모델을 업데이트하지 않습니다.
파인튜닝 방식으로 모델 전체를 업데이트 하려면 많은 비용이 듭니다.
파인튜닝 말고도 다른 방식이 주목받는 이유는 비용과 성능 때문입니다.
최근 언어 모델의 크기가 기하급수적으로 커지고 있고
파인튜닝 방식으로 모델 전체를 업데이트하려면 많은 비용이 듭니다.
그 뿐만 아니라 프롬프트 튜닝, 인컨텍스트 러닝으로 학습한 모델이
경쟁력 있는 태스크 수행 성능을 보일 때가 많습니다.
그 중 인컨텍스트 러닝 방식 3가지를 소개하고자 합니다.
제로샷 러닝(zero-shot-learning)
: 다운스트림 태스크 데이터를 전혀 사용하지 않습니다. 모델이 바로 다운스트림 태스크를 수행합니다.
제로샷 러닝은 각각의 모델의 결과들을 합칠 필요없이 공통점을 이용해 정답을 찾아내기 때문에 비용과 성능면에서 큰 효과를 볼 수 있다. 훈련 데이터가 아예 없어도 유연한 패턴인식을 할 수 있는 걸 의미합니다.
대표적으로 구글 번역기가 이에 해당됨.
퓨샷 러닝(few-shot learning)
: 다운스트림 태스크 데이터를 몇 건만 사용합니다. 모델은 몇 건읜 데이터가 어떻게 수행되는지 참고한 뒤 다운스트림 태스크를 수행합니다.
데이터 수가 매우 적은 퓨샷 러닝 문제에서는 데이터셋을 훈련에 사용하는 서포트 데이터(support data)와 테스트에 사용하는 쿼리 데이터(query data)로 구성합니다. 이런 퓨샷 러닝 태스크를 ’N-way K-shot 문제'라고 부릅니다.
원샷 러닝(one-shot-learning)
: 다운스트림 태스크 데이터를 1건만 사용합니다. 모델은 1건의 데이터가 어떻게 수행되는지 참고한 뒤 다운스트림 태스크를 수행합니다. *이미지 한장
참고 도서 : BERT와 GPT로 배우는 자연어 처리 - 이기창
'Machine learning > NLP' 카테고리의 다른 글
[NLP]. 구어체(채팅)데이터에서 필요한 품사만 가져오기 (feat.꼬꼬마 형태소 분석기) (0) | 2022.03.04 |
---|---|
[NLP]. 도로명 주소 & 지번 주소 인식 정규표현식 (0) | 2022.01.11 |
[annotation]. 텍스트 데이터 라벨링 꿀팁(2) (0) | 2021.11.12 |
[annotation]. 텍스트 데이터 라벨링 꿀팁(1) (0) | 2021.11.12 |
[NLP]. 한국어 맞춤법 검사기 사용하기 (feat. hanspell ) (0) | 2021.10.27 |