Acdong
Learn by doing
Acdong
전체 방문자
오늘
어제
  • 분류 전체보기
    • Economy
      • Saving Money
    • Self-improvement
    • Thoughts
    • Machine learning
      • Deep Learning
      • Chatbot
      • NLP
    • MLops
      • AWS
      • Container
      • Serving
    • Computer Vision
    • Data Science
      • ADsP
      • R
    • Project
    • Python
      • Data Structure & Algorithm
    • C,C++
    • API
      • ElasticSearch
    • Error Note
    • Network
    • RDBMS
      • SQL

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • [GitHub]

인기 글

태그

  • 다중공선성
  • R그래프
  • R시각화
  • 존댓말 반말 분류
  • plot()
  • pandas
  • nlp
  • Numpy
  • 데이터 전처리
  • 이미지 전처리
  • 포인터
  • Python
  • sbert
  • 기계학습
  • 회귀계수
  • c포인터
  • 어텐션
  • 머신러닝
  • R
  • SentenceTransformer

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
Acdong

Learn by doing

Machine learning/NLP

[NLP]. HuggingFace Tokenizer에 token 추가(add)하기

2023. 2. 27. 15:36
728x90
from transformers import AutoTokenizer

tokenzer = AutoTokenizer.from_pretrained({model_path})

# new tokens
new_tokens = "[NEW]"

tokenizer.add_special_tokens({"additional_special_tokens" : [new_tokens]})
model.resize_token_embeddings(len(tokenizer))

 

resize_token_embeddings(len(tokenizer))를 안해주게 되면 임베딩 에러 발생

 

+ 추가

Sbert의 경우

# ADD tokens
tokens = ["[NEW]"]
embedding_model = model._first_module()
embedding_model.tokenizer.add_tokens(tokens, special_tokens=True)
embedding_model.auto_model.resize_token_embeddings(
    len(embedding_model.tokenizer))
pooling_model = models.Pooling(
    embedding_model.get_word_embedding_dimension())
model = SentenceTransformer(modules=[embedding_model, pooling_model])
반응형
저작자표시 비영리 (새창열림)

'Machine learning > NLP' 카테고리의 다른 글

[NLP]. 크로스 인코더(Cross Encoder) Onnx Runtime 양자화 하기  (0) 2023.05.16
[NLP]. Ray와 Sklearn Pipeline을 사용하여 Pandas 데이터 전처리하기  (0) 2023.04.05
[NLP]. MultipleNegativesRankingLoss 적용기(Sentence Transfomer)  (0) 2023.02.21
[NLP]. 인공지능에서 골드 라벨(Gold Label)은 뭘까? (feat. ChatGPT)  (0) 2023.02.21
[NLP]. 한국어 존댓말/반말 분류모델 (formal classifier)  (0) 2023.02.03
    'Machine learning/NLP' 카테고리의 다른 글
    • [NLP]. 크로스 인코더(Cross Encoder) Onnx Runtime 양자화 하기
    • [NLP]. Ray와 Sklearn Pipeline을 사용하여 Pandas 데이터 전처리하기
    • [NLP]. MultipleNegativesRankingLoss 적용기(Sentence Transfomer)
    • [NLP]. 인공지능에서 골드 라벨(Gold Label)은 뭘까? (feat. ChatGPT)
    Acdong
    Acdong
    E-mail : alswhddh@naver.com / 자연어처리와 MLops 를 연구하고 있는 스타트업 개발자입니다.

    티스토리툴바