Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 생성형 AI
- 티스토리챌린지
- AI 기술
- 오블완
- javascript
- 일론 머스크
- AI
- 가상환경
- 이미지 편집
- 뉴럴링크
- ControlNet
- 우분투
- 트랜스포머
- LORA
- TRANSFORMER
- 메타
- 시간적 일관성
- 인공지능
- 서보모터
- 멀티모달
- 확산 모델
- ChatGPT
- 아두이노
- ubuntu
- 오픈AI
- tts
- PYTHON
- OpenAI
- LLM
- 딥마인드
Archives
- Today
- Total
AI 탐구노트
Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷 본문
3조개의 토큰을 포함한 오픈소스 텍스트 데이터셋과 툴킷
Dolma는 앨런AI연구소(Allen Institute for AI)라는 곳에서 오픈소스로 공개한 3조개의 토큰을 포함한 텍스트 데이터셋과 툴킷입니다.
Dolma 데이터셋은 원래는 앨런AI연구소에서 개발한 OLMO 모델의 교육을 위해 만들어졌습니다. 주로 학술 출판물, 위키피디아 등의 웹 콘텐츠, 코드, 도서 및 백과사전 자료 등이 포함되어 있다고 합니다. 이전에 발표된 Llama 2 사전학습 모델이 2조 개의 토큰 데이터셋을 이용했다고 했으니 그보다 50% 이상 더 큰 데이터셋인 셈입니다. 언어 측면에서는 영어 데이터로 한정해서 필터링을 했다고 합니다. 그리고, AI2 Impact 라이선스를 도입했는데 이는 다른 것과는 약간 다른 컨셉이니 링크에서 확인해 보시기 바랍니다.
Dolma 툴킷은 언어 모델링을 위한 데이터 세트를 큐레이팅하기 위한 고성능 툴킷으로 깃헙 레포지토리의 소스 코드를 통해 제공됩니다.
'AI 기술' 카테고리의 다른 글
Robotics Transformer 2 (RT-2) : 비전-언어-액션 모델 (3) | 2024.09.02 |
---|---|
Comic Factory : 프롬프트 기반 코믹스 만화컷 생성 모델 (5) | 2024.09.02 |
RobustL2S : 입모양을 보고 음성을 생성하는 모델 (0) | 2024.09.01 |
Open Catalyst Project : 재생가능한 에너지 저장을 위한 촉매 모델링 (0) | 2024.09.01 |
VALL-E X : Cross-lingual 음성 합성 모델 (3) | 2024.09.01 |