AI 탐구노트

MrT5 : 바이트 수준 언어 모델을 위한 동적 토큰 병합 본문

AI 기술

MrT5 : 바이트 수준 언어 모델을 위한 동적 토큰 병합

42morrow 2024. 10. 31. 15:57

1.개요

 

단어 토큰화 방식의 모델의 경우, 문자 수준에서 발생하는 다양한 노이즈(예; 철자 오류)와 언어, 사용 스크립트 등에 따라 일관성 없는 압축을 진행하는 등의 어려움이 있습니다. 그래서, 이에 대한 대안으로 바이트 수준으로 별도 토큰화가 없는 모델로 ByT5(Byte -leve T5)같은 모델이 등장했습니다. 하지만, 이들은 텍스트 전처리에서 토크나이제이션을 사용하지 않으나, 그로 인해 긴 입력 시퀀스를 처리하므로 연산 속도가 느리고 자원이 많이 소모되는 문제가 있습니다. 

 

* ByT5 : 구글의 mT5(Multilingual T5)를 바이트 수준 입력으로 처리할 수 있도록 수정한 모델

* T5 : 구글에서 개발한 언어 모델 'Text To Text Transfer Transformer'를 의미함.

 

MRT5(Merged T5)는 토큰 삭제 메커니즘을 통해 입력 시퀀스 길이를 동적으로 줄여, 효율성을 높인 바이트 수준의 언어 모델입니다. 인코더 내에서 특정 레이어 이후에 '삭제 게이트'라는 것을 통해 불필요한 토큰을 제거하는 방식으로 시퀀스 길이를 단축하고 삭제된 토큰 정보를 남은 토큰에 통합해 효율을 높이는 방식을 도입했습니다. 

 

2.적용 기술

MRT5에서는 인코더 레이어의 특정 지점에 '삭제 게이트(Delete Gate)'를 배치하여 특정 레이어 이후 삭제할 토큰을 결정합니다. 이 삭제 게이트는 입력 시퀀스의 각 토큰에 대해 삭제 여부를 판단하며, 이후 레이어에서는 남은 토큰들만을 처리하여 최종 출력으로 보내는데, 훈련 중에는 소프트 마스크 방식을 사용해 삭제될 토큰에 가중치를 낮게 부여하여 학습하고 (Soft deletion), 추론 시에는 실제로 삭제된 토큰의 자리를 비워(hard deletion) 실제 시퀀스 길이를 줄여 효율성을 극대화합니다.

 

그림 : 학습 시와 테스트 시 Delete Gate에 의해 수행되는 soft deletion, hard deletion 설명

 

 

여기서 적용되는 적용 기술의 특징은 다음과 같습니다.

  1. 토큰 삭제 메커니즘 : MRT5는 인코더 초기 레이어에서 전체 입력을 처리한 후, 학습된 삭제 게이트를 통해 불필요한 토큰을 삭제하고 중요한 정보를 남은 토큰에 병합합니다.
  2. 훈련과 추론 시의 차별적 삭제 방식 : 훈련 중에는 소프트 삭제를 통해 삭제할 토큰을 가려내고, 추론 시에는 하드 삭제로 실제로 시퀀스 길이를 줄여 계산 비용을 절감합니다.
  3. 멀티링구얼 성능 : 영어로만 학습했을 때도 여러 언어에 삭제 기능이 적용되며, 추가적인 다국어 학습을 통해 다양한 언어의 시퀀스 길이를 최대 80%까지 줄입니다.
  4. 효율성 : ByT5와 유사한 정확도를 유지하면서도 시퀀스 길이를 50% 이상 줄이고, 추론 시간을 최대 40% 단축했습니다.

 


참고사항

 

1.논문) MRT5: DYNAMIC TOKEN MERGING FOR EFFICIENT BYTE-LEVEL LANGUAGE MODELS 

 

https://arxiv.org/pdf/2410.20771

 

2.코드 (Github)

 

 

GitHub - jkallini/mrt5

Contribute to jkallini/mrt5 development by creating an account on GitHub.

github.com

 

3.T5(Text-to-Text Transfer Transformer) 논문 리뷰

 

T5(Text-to-Text Transfer Transformer) 논문 리뷰

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(2019) 읽어보기

velog.io