Transformer

[NLP] Transformer : Masked Multi-Head Attention - part3

2021.08.21

Transformer Decoder : 트렌스포머 모델의 디코더(Decoder)는 인코더(Encoder)와 다르게 Masked Attention 이 들어간다. Masked Multi-head Attention Mask(마스크) 란? Masked 혹은 Masking 이라는 용어 차제는 포토샵에서 많이 접할 수 있지만 무언가로 가린다는 의미이다. 디코더(Decoder)에서의 Self-Attention Layer 는 반드시 자기 자신 보다 앞쪽에 포지션에 해당하는 토큰들의 어텐션 스코어만 볼수있다. 아웃풋들이 주어졌을 때 뒤에 나오는 단어들은 볼 수 없다. ( 기본적인 seq2seq 모델의 학습 개념 transformer 도 동일함.) Masking을 수학적으로 구현할 때는 포지션에 해당하는 Score 값을 ..

Machine learning/NLP

[NLP] Transformer : Self-Attention ( Multi-head-Attention ) - part2

2021.08.19

https://acdongpgm.tistory.com/219?category=910966 [NLP]. Transformer : Structure 앞서 시퀀스 투 시퀀스 모델에 대해서 설명하면서 어텐션에 대한 개념을 설명했다. Transformer의 논문 제목은 "Attention is All You Need"이다. 어텐션만 있으면 다 가능하다. 뭐 이런 뜻이다. 즉, 트랜스 acdongpgm.tistory.com 앞서 설명했듯이 임베딩 이후에 포지셔널 인코딩을 통해서 포지션 정보를 가진 임베딩 벡터가 인코딩 블록으로 들어오게 된다. 논문의 핵심인 Multi-Head Attention의 동작하는 방식을 알아보고 그 이후에 정규화 방법(Residual connection & Normalization)도 같이..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Transformer

[NLP] Transformer : Masked Multi-Head Attention - part3

[NLP] Transformer : Self-Attention ( Multi-head-Attention ) - part2

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역