Acdong
Learn by doing
Acdong
전체 방문자
오늘
어제
  • 분류 전체보기
    • Economy
      • Saving Money
    • Self-improvement
    • Thoughts
    • Machine learning
      • Deep Learning
      • Chatbot
      • NLP
    • MLops
      • AWS
      • Container
      • Serving
    • Computer Vision
    • Data Science
      • ADsP
      • R
    • Project
    • Python
      • Data Structure & Algorithm
    • C,C++
    • API
      • ElasticSearch
    • Error Note
    • Network
    • RDBMS
      • SQL

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • [GitHub]

인기 글

태그

  • 데이터 전처리
  • plot()
  • 기계학습
  • 포인터
  • SentenceTransformer
  • 어텐션
  • R그래프
  • nlp
  • 머신러닝
  • Python
  • Numpy
  • pandas
  • c포인터
  • R시각화
  • 존댓말 반말 분류
  • 회귀계수
  • sbert
  • R
  • 이미지 전처리
  • 다중공선성

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Acdong

Learn by doing

Machine learning/NLP

[NLP] Fine-tuning(파인튜닝)과 in-context learning(인컨텍스트 러닝)

2021. 12. 14. 11:49
728x90

대규모 사전 학습 언어모델이 다운스트림 태스크를 학습하는 방식은 크게 3가지가 있습니다.

 

Fine-tuning
 : 다운스트림 태스크 데이터 전체를 사용합니다. 다운 스트림 데이터에 맞게 모델 전체을 업데이트합니다.

 - 문서 분류 , 자연어 추론 , 질의응답 , 문장 생성 

 

Prompt tuning
 : 다운스트림 태스크 데이터 전체를 사용합니다. 다운스트림 데이터에 맞게 모델 일부만 업데이트합니다.

 

In-context learning
 : 다운스트림 태스크 데이터의 일부만 사용합니다. 모델을 업데이트하지 않습니다.

 

파인튜닝 방식으로 모델 전체를 업데이트 하려면 많은 비용이 듭니다.

파인튜닝 말고도 다른 방식이 주목받는 이유는 비용과 성능 때문입니다.

 

최근 언어 모델의 크기가 기하급수적으로 커지고 있고

파인튜닝 방식으로 모델 전체를 업데이트하려면 많은 비용이 듭니다.

그 뿐만 아니라 프롬프트 튜닝, 인컨텍스트 러닝으로 학습한 모델이

경쟁력 있는 태스크 수행 성능을 보일 때가 많습니다. 


그 중 인컨텍스트 러닝 방식 3가지를 소개하고자 합니다.

 

제로샷 러닝(zero-shot-learning)

 : 다운스트림 태스크 데이터를 전혀 사용하지 않습니다. 모델이 바로 다운스트림 태스크를 수행합니다.

 

 제로샷 러닝은 각각의 모델의 결과들을 합칠 필요없이 공통점을 이용해 정답을 찾아내기 때문에 비용과 성능면에서 큰 효과를 볼 수 있다. 훈련 데이터가 아예 없어도 유연한 패턴인식을 할 수 있는 걸 의미합니다.

대표적으로 구글 번역기가 이에 해당됨.

 

퓨샷 러닝(few-shot learning)

 : 다운스트림 태스크 데이터를 몇 건만 사용합니다. 모델은 몇 건읜 데이터가 어떻게 수행되는지 참고한 뒤 다운스트림 태스크를 수행합니다.

 

데이터 수가 매우 적은 퓨샷 러닝 문제에서는 데이터셋을 훈련에 사용하는 서포트 데이터(support data)와 테스트에 사용하는 쿼리 데이터(query data)로 구성합니다. 이런 퓨샷 러닝 태스크를 ’N-way K-shot 문제'라고 부릅니다.

 

 

원샷 러닝(one-shot-learning)

 : 다운스트림 태스크 데이터를 1건만 사용합니다. 모델은 1건의 데이터가 어떻게 수행되는지 참고한 뒤 다운스트림 태스크를 수행합니다. *이미지 한장

 

참고 도서 : BERT와 GPT로 배우는 자연어 처리 - 이기창

반응형
저작자표시 비영리 (새창열림)

'Machine learning > NLP' 카테고리의 다른 글

[NLP]. 구어체(채팅)데이터에서 필요한 품사만 가져오기 (feat.꼬꼬마 형태소 분석기)  (0) 2022.03.04
[NLP]. 도로명 주소 & 지번 주소 인식 정규표현식  (0) 2022.01.11
[annotation]. 텍스트 데이터 라벨링 꿀팁(2)  (0) 2021.11.12
[annotation]. 텍스트 데이터 라벨링 꿀팁(1)  (0) 2021.11.12
[NLP]. 한국어 맞춤법 검사기 사용하기 (feat. hanspell )  (0) 2021.10.27
    'Machine learning/NLP' 카테고리의 다른 글
    • [NLP]. 구어체(채팅)데이터에서 필요한 품사만 가져오기 (feat.꼬꼬마 형태소 분석기)
    • [NLP]. 도로명 주소 & 지번 주소 인식 정규표현식
    • [annotation]. 텍스트 데이터 라벨링 꿀팁(2)
    • [annotation]. 텍스트 데이터 라벨링 꿀팁(1)
    Acdong
    Acdong
    E-mail : alswhddh@naver.com / 자연어처리와 MLops 를 연구하고 있는 스타트업 개발자입니다.

    티스토리툴바