AI 탐구노트

NVIDIA, Llama-3.1 Minitron 4B/8B 모델 공개 본문

AI 관련 소식

NVIDIA, Llama-3.1 Minitron 4B/8B 모델 공개

42morrow 2024. 8. 20. 14:52

소형이지만 강력한 성능, 엔비디아의 라마 3.1-미니트론 4B 모델 공개

 

NVIDIA가 소형 언어모델(sLM) 'Llama-3.1-Minitron 4B와 8B'를 공개했습니다. 좀 더 큰 모델인 Nemotron 15B에서 가중치 가지치기(Pruninig), 지식 증류(Knowledge Distilation) 기술을 결합해서 만들었다고 합니다. 덩치는 작아졌지만 MMLU 기준 성능은 16% 가량 더 향상되었고 교육을 위한 토큰 수도 최대 40배 감소했다고 하네요. (링크)

 

 

사진 : Minitron 4B, 8B를 소개하는 이미지 (출처: NVIDIA 기술 블로그)