[Paper Review] Transformer - Attention is All You Need

🐬 ML & Data/📘 논문 & 모델 리뷰

[Paper Review] Transformer - Attention is All You Need

darly213 2024. 12. 30. 15:22

728x90

분명 내가 딥러닝에 입문했을 때도 Transformer가 각광받고 있었는데 아직까지도 Transformer가 각광받고 있다. 세상은 변하는데... 참 응용도도 높고 성능이 좋은 모델임에 틀림없다.

예전에 공부해본바 있지만 경험치가 쌓인 지금 좀 더 지식을 공고히할 겸 정리해봤다. 글로 옮기기 귀찮아서 손글씨 사진으로 대체한다.

1. Attention 개념 이해하기

2. Self-Attention이란?

3. Transformer 구조

4. Transformer의 Query, Key, Value 구해보기

5. Multi-head Attention

6. Encoder와 Decoder에서 Self-Attention의 동작

7. Masked Self Attention

8. 기타 개념 및 기법

8.1. Feed Forward

8.2. Residual Connection & Layer Normalization

8.3 모델 학습 기법 - Dropout, Adam Optimizer

728x90

저작자표시 비영리 변경금지 (새창열림)