[논문 구현] Transformer 텐서플로우로 구현하기
·
📘 논문 & 모델 리뷰
모델을 돌리기 위해서 만든 건 아니고, 이전에 공부한 내용을 코드로 구현해보면서 이해를 깊이하는 시간을 갖고자 만들어보았다.따라서 실제 데이터 넣고 학습했을 때 구데기일 수 있다는 점을 참고해주시길...1. Attention 구현하기 $$Attention = softmax(\frac{QK^{T}}{\sqrt{ d_{k} }})V$$ 이 공식에 맞게 구현하면 된다. 여기서 $d_{k}$ 는 k의 차원수이다. 차례차례 보면, 순서대로 차근차근 진행하면 된다. 마스크 적용에 관한 건은 뒤에서.def scaled_dot_product_attention(query, key, value, mask=None): # QK^T matmul_qk = tf.matmul(query, key, transp..