Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- ubuntu
- 우분투
- 생성형 AI
- tts
- 확산 모델
- 인공지능
- 시간적 일관성
- ControlNet
- TRANSFORMER
- 딥마인드
- 뉴럴링크
- 티스토리챌린지
- 가상환경
- 오블완
- 이미지 편집
- ChatGPT
- OpenAI
- 오픈AI
- 멀티모달
- 트랜스포머
- 서보모터
- AI
- 아두이노
- PYTHON
- 일론 머스크
- LLM
- javascript
- LORA
- 메타
- AI 기술
Archives
- Today
- Total
목록3조개 토큰 (1)
AI 탐구노트
Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷
3조개의 토큰을 포함한 오픈소스 텍스트 데이터셋과 툴킷 Dolma는 앨런AI연구소(Allen Institute for AI)라는 곳에서 오픈소스로 공개한 3조개의 토큰을 포함한 텍스트 데이터셋과 툴킷입니다. Dolma 데이터셋은 원래는 앨런AI연구소에서 개발한 OLMO 모델의 교육을 위해 만들어졌습니다. 주로 학술 출판물, 위키피디아 등의 웹 콘텐츠, 코드, 도서 및 백과사전 자료 등이 포함되어 있다고 합니다. 이전에 발표된 Llama 2 사전학습 모델이 2조 개의 토큰 데이터셋을 이용했다고 했으니 그보다 50% 이상 더 큰 데이터셋인 셈입니다. 언어 측면에서는 영어 데이터로 한정해서 필터링을 했다고 합니다. 그리고, AI2 Impact 라이선스를 도입했는데 이는 다른 것과는 약간 다른 컨셉이니 링크에..
AI 기술
2024. 9. 2. 09:43