REFORMER1 Reformer : The Efficient Transformer *참고 : 이탤릭 글자들은 논문속의 내용이 아닌 제 생각을 주절주절 적은 것이니 아닐 수 있습니다. Author Nikita Kitaev, Lukasz Kaiser, Anselm Levskaya Abstract 큰 사이즈의 트랜스포머 기반 모델들은 여러가지 분야에서 SOTA를 달성 하지만, 모델들을 학습하는데 비용이 많이 듬 : 특히 긴 시퀀스의 경우 그래서 트랜스포머를 효율을 향상시킬 두가지 기술을 소개하려 함. 어텐션을 계산할 때 내적 대신 LSH(Locality-Sensitive Hashing)을 이용 ⇒ O(L^2) → O(LlogL) 기존의 residuals 방법 대신 "reversible residual layer"를 사용 ⇒ 학습시 엑티베이션을 한 번만 저장하도록 변경(기존에는 layer수 .. 2020. 2. 8. 이전 1 다음