728x90
분명 내가 딥러닝에 입문했을 때도 Transformer가 각광받고 있었는데 아직까지도 Transformer가 각광받고 있다. 세상은 변하는데... 참 응용도도 높고 성능이 좋은 모델임에 틀림없다.
예전에 공부해본바 있지만 경험치가 쌓인 지금 좀 더 지식을 공고히할 겸 정리해봤다. 글로 옮기기 귀찮아서 손글씨 사진으로 대체한다.
1. Attention 개념 이해하기
2. Self-Attention이란?
3. Transformer 구조
4. Transformer의 Query, Key, Value 구해보기
5. Multi-head Attention
6. Encoder와 Decoder에서 Self-Attention의 동작
7. Masked Self Attention
8. 기타 개념 및 기법
8.1. Feed Forward
8.2. Residual Connection & Layer Normalization
8.3 모델 학습 기법 - Dropout, Adam Optimizer
728x90