본문 바로가기

전체 글9

보고싶다 - 무드살롱 / 20191227 무드살롱 6기때 솔로곡으로 진행했던... 2020. 2. 9.
말꼬리 - 리브레 / 20191130 피아노 리브레 여의도점에서 진행한 연주회. 2020. 2. 9.
Reformer : The Efficient Transformer *참고 : 이탤릭 글자들은 논문속의 내용이 아닌 제 생각을 주절주절 적은 것이니 아닐 수 있습니다. Author Nikita Kitaev, Lukasz Kaiser, Anselm Levskaya Abstract 큰 사이즈의 트랜스포머 기반 모델들은 여러가지 분야에서 SOTA를 달성 하지만, 모델들을 학습하는데 비용이 많이 듬 : 특히 긴 시퀀스의 경우 그래서 트랜스포머를 효율을 향상시킬 두가지 기술을 소개하려 함. 어텐션을 계산할 때 내적 대신 LSH(Locality-Sensitive Hashing)을 이용 ⇒ O(L^2) → O(LlogL) 기존의 residuals 방법 대신 "reversible residual layer"를 사용 ⇒ 학습시 엑티베이션을 한 번만 저장하도록 변경(기존에는 layer수 .. 2020. 2. 8.
ELECTRA : Pre-Training Text Encoders as Discriminators Rather than Generators Author Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning Abstract MLM 방식은 입력 토큰을 손상 시킨 후 오리지널 토큰으로 수정 하면서 학습을 진행 (예 : BERT) 다양한 다운 스트림 테스크로 트랜스퍼 되는 관점 에서는 효과적일 수 있지만, 일반적으로 많은 양의 컴퓨팅을 요구함 대안으로 좀더 나은 방식을 제안 : "Replaced token detection" MASK 토큰을 쓰는 대신 미리 학습해둔 작은 뉴럴넷을 통해 생성된 유사한 단어를 사용 해당 토큰 자리의 원래 토큰을 예측하기 보다, 각 토큰이 제너레이터 샘플로 대체 되었는지 여부를 측정하는 형태로 학습 실험을 통해 MLM보다 더 효율 적임을 보임 Objecti.. 2020. 2. 8.
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(T5) Abstract NLP 도메인에 존재하는 다양한 문제들을 하나의 통일된 프레임웍을 이용해서 해결 하고자 함 프레임웍 기반 기술 : Transfer learning using Transformer 최근 다양한 변이가 많음 : 실험을 통해 최적의 모델을 찾고자 함 고려한 옵션 : Pre-training Architect, Pre-training Objective, Corpus 등.. 입출력 방법 : text-to-text(encoder-decoder) 모든 문제를 text-to-text 형태로 변경해서 해결하도록 함 예를 들어, classification 문제도 라벨을 분류하는게 아니라 decoder에서 text를 생성해 내는 형태 Summarization, QA, Text Classification 등에서.. 2020. 2. 8.
Cross-lingual Language Model Pre-training Author Guillaume Lample, Alexis Conneau Abstract 2가지 Cross-lingual LM(XLM)을 제시 단일 언어 말뭉치에 대한 비지도학습 방법 두개 언어에 대해 병렬 말뭉치가 있을 때 지도학습 방법 그리고 이것은 매우 좋은 성능을 보였음. 1.Introduction 트랜스포머 이후에 많은 LM기반 Pre-Training모델들이 나왔지만, 대부분 하나의 언어(특히 영어)에 포커스 된 형태. 최근 이러한 영어 중심의 바이어스된 문제를 완화하고 싶음. 방안으로 여러 언어가 하나의 임베딩 공간을 공유하고 어떤 언어로 쓰인 문장도 해당 임베딩 공간으로 인코딩 되도록 하는 유니버셜 인코더를 만들고자 함. 결국, 하고자 하는 것 : we demonstrate the effect.. 2020. 2. 8.