[๋
ผ๋ฌธ ๊ตฌํ] Transformer ํ
์ํ๋ก์ฐ๋ก ๊ตฌํํ๊ธฐ
ยท
๐ฌ ML & Data/๐ ๋
ผ๋ฌธ & ๋ชจ๋ธ ๋ฆฌ๋ทฐ
๋ชจ๋ธ์ ๋๋ฆฌ๊ธฐ ์ํด์ ๋ง๋ ๊ฑด ์๋๊ณ , ์ด์ ์ ๊ณต๋ถํ ๋ด์ฉ์ ์ฝ๋๋ก ๊ตฌํํด๋ณด๋ฉด์ ์ดํด๋ฅผ ๊น์ดํ๋ ์๊ฐ์ ๊ฐ๊ณ ์ ๋ง๋ค์ด๋ณด์๋ค.๋ฐ๋ผ์ ์ค์ ๋ฐ์ดํฐ ๋ฃ๊ณ ํ์ตํ์ ๋ ๊ตฌ๋ฐ๊ธฐ์ผ ์ ์๋ค๋ ์ ์ ์ฐธ๊ณ ํด์ฃผ์๊ธธ...1. Attention ๊ตฌํํ๊ธฐ $$Attention = softmax(\frac{QK^{T}}{\sqrt{ d_{k} }})V$$ ์ด ๊ณต์์ ๋ง๊ฒ ๊ตฌํํ๋ฉด ๋๋ค. ์ฌ๊ธฐ์ $d_{k}$ ๋ k์ ์ฐจ์์์ด๋ค. ์ฐจ๋ก์ฐจ๋ก ๋ณด๋ฉด, ์์๋๋ก ์ฐจ๊ทผ์ฐจ๊ทผ ์งํํ๋ฉด ๋๋ค. ๋ง์คํฌ ์ ์ฉ์ ๊ดํ ๊ฑด์ ๋ค์์.def scaled_dot_product_attention(query, key, value, mask=None): # QK^T matmul_qk = tf.matmul(query, key, transp..