[논문 구현] Transformer 텐서플로우로 구현하기
·
🐬 ML & Data/📘 논문 & 모델 리뷰
모델을 돌리기 위해서 만든 건 아니고, 이전에 공부한 내용을 코드로 구현해보면서 이해를 깊이하는 시간을 갖고자 만들어보았다.따라서 실제 데이터 넣고 학습했을 때 구데기일 수 있다는 점을 참고해주시길...1. Attention 구현하기 $$Attention = softmax(\frac{QK^{T}}{\sqrt{ d_{k} }})V$$ 이 공식에 맞게 구현하면 된다. 여기서 $d_{k}$ 는 k의 차원수이다. 차례차례 보면, 순서대로 차근차근 진행하면 된다. 마스크 적용에 관한 건은 뒤에서.def scaled_dot_product_attention(query, key, value, mask=None): # QK^T matmul_qk = tf.matmul(query, key, transp..
[Paper Review] Transformer - Attention is All You Need
·
🐬 ML & Data/📘 논문 & 모델 리뷰
분명 내가 딥러닝에 입문했을 때도 Transformer가 각광받고 있었는데 아직까지도 Transformer가 각광받고 있다. 세상은 변하는데... 참 응용도도 높고 성능이 좋은 모델임에 틀림없다.예전에 공부해본바 있지만 경험치가 쌓인 지금 좀 더 지식을 공고히할 겸 정리해봤다. 글로 옮기기 귀찮아서 손글씨 사진으로 대체한다. 1. Attention 개념 이해하기2. Self-Attention이란?3. Transformer 구조4. Transformer의 Query, Key, Value 구해보기5. Multi-head Attention6. Encoder와 Decoder에서 Self-Attention의 동작7. Masked Self Attention8. 기타 개념 및 기법8.1. Feed Forward8.2..
[Paper Review] Mamba - Linear Time Sequence Modeling with Selective State Spaces 1
·
🐬 ML & Data/📘 논문 & 모델 리뷰
나온지 벌써 1년도 넘었지만 최신 논문 리뷰를 안 한지가 백만년 정도 된 것 같아서 한 번 읽어보는 mamba... 그리 정확한 리뷰는 아닐 수 있습니다. 사실 번역에 가깝고 좀 더 이해해보면서 내용 수정하겠습니다. 1. Introduction최근들어 Structured State Space Sequence Models(SSMs) 가 시퀀스 모델링 구조 분야에서 유망한 클래스로 등장했다. 전통적인 state space models에 영감을 받아 CNN과 RNN의 통합을 조율한다(interpreted).Mamba에서는 selective state space model의 새로운 종류를 제안한다. 시퀄스 길이에 따라 선형적으로 확장하면서 transformer의 모델링 파워를 따라잡기 위해서 몇몇의 axes(여..