Electra1 ELECTRA : Pre-Training Text Encoders as Discriminators Rather than Generators Author Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning Abstract MLM 방식은 입력 토큰을 손상 시킨 후 오리지널 토큰으로 수정 하면서 학습을 진행 (예 : BERT) 다양한 다운 스트림 테스크로 트랜스퍼 되는 관점 에서는 효과적일 수 있지만, 일반적으로 많은 양의 컴퓨팅을 요구함 대안으로 좀더 나은 방식을 제안 : "Replaced token detection" MASK 토큰을 쓰는 대신 미리 학습해둔 작은 뉴럴넷을 통해 생성된 유사한 단어를 사용 해당 토큰 자리의 원래 토큰을 예측하기 보다, 각 토큰이 제너레이터 샘플로 대체 되었는지 여부를 측정하는 형태로 학습 실험을 통해 MLM보다 더 효율 적임을 보임 Objecti.. 2020. 2. 8. 이전 1 다음