AI 탐구노트

Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷 본문

AI 기술

Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷

42morrow 2024. 9. 2. 09:43
 3조개의 토큰을 포함한 오픈소스 텍스트 데이터셋과 툴킷

 

Dolma는 앨런AI연구소(Allen Institute for AI)라는 곳에서 오픈소스로 공개한 3조개의 토큰을 포함한 텍스트 데이터셋과 툴킷입니다. 

 

Dolma 데이터셋은 원래는 앨런AI연구소에서 개발한 OLMO 모델의 교육을 위해 만들어졌습니다. 주로 학술 출판물, 위키피디아 등의 웹 콘텐츠, 코드, 도서 및 백과사전 자료 등이 포함되어 있다고 합니다. 이전에 발표된 Llama 2 사전학습 모델이 2조 개의 토큰 데이터셋을 이용했다고 했으니 그보다 50% 이상 더 큰 데이터셋인 셈입니다. 언어 측면에서는 영어 데이터로 한정해서 필터링을 했다고 합니다. 그리고, AI2 Impact 라이선스를 도입했는데 이는 다른 것과는 약간 다른 컨셉이니 링크에서 확인해 보시기 바랍니다.

 

Dolma 툴킷은 언어 모델링을 위한 데이터 세트를 큐레이팅하기 위한 고성능 툴킷으로 깃헙 레포지토리의 소스 코드를 통해 제공됩니다. 

 

사진: Dolma의 데이터셋 구성 분포

 

 

사진 : LLM에 사용된 데이터셋 간의 비교

 

 

 

참고) 기사데이터셋관련글데이터시트