Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷 본문

AI 기술

Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷

42morrow 2024. 9. 2. 09:43

3조개의 토큰을 포함한 오픈소스 텍스트 데이터셋과 툴킷

Dolma는 앨런AI연구소(Allen Institute for AI)라는 곳에서 오픈소스로 공개한 3조개의 토큰을 포함한 텍스트 데이터셋과 툴킷입니다.

Dolma 데이터셋은 원래는 앨런AI연구소에서 개발한 OLMO 모델의 교육을 위해 만들어졌습니다. 주로 학술 출판물, 위키피디아 등의 웹 콘텐츠, 코드, 도서 및 백과사전 자료 등이 포함되어 있다고 합니다. 이전에 발표된 Llama 2 사전학습 모델이 2조 개의 토큰 데이터셋을 이용했다고 했으니 그보다 50% 이상 더 큰 데이터셋인 셈입니다. 언어 측면에서는 영어 데이터로 한정해서 필터링을 했다고 합니다. 그리고, AI2 Impact 라이선스를 도입했는데 이는 다른 것과는 약간 다른 컨셉이니 링크에서 확인해 보시기 바랍니다.

Dolma 툴킷은 언어 모델링을 위한 데이터 세트를 큐레이팅하기 위한 고성능 툴킷으로 깃헙 레포지토리의 소스 코드를 통해 제공됩니다.

참고) 기사, 데이터셋, 관련글, 데이터시트

'AI 기술' 카테고리의 다른 글

Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델 (3)	2024.09.02
Comic Factory : 프롬프트 기반 코믹스 만화컷 생성 모델 (5)	2024.09.02
RobustL2S : 입모양을 보고 음성을 생성하는 모델 (0)	2024.09.01
Open Catalyst Project : 재생가능한 에너지 저장을 위한 촉매 모델링 (0)	2024.09.01
VALL-E X : Cross-lingual 음성 합성 모델 (3)	2024.09.01

'AI 기술' Related Articles

AI 탐구노트

Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷 본문

Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷

'AI 기술' 카테고리의 다른 글

티스토리툴바