Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 오픈AI
- ControlNet
- 시간적 일관성
- PYTHON
- AI 기술
- 인공지능
- 뉴럴링크
- 메타
- 휴머노이드 로봇
- AI
- 아두이노
- 우분투
- OpenAI
- LLM
- 티스토리챌린지
- ChatGPT
- 딥러닝
- 서보모터
- 트랜스포머
- TRANSFORMER
- 딥마인드
- 가상환경
- tts
- 확산 모델
- 생성형 AI
- 멀티모달
- 오블완
- ubuntu
- 일론 머스크
- LORA
Archives
- Today
- Total
목록앨런ai연구소 (1)
AI 탐구노트
Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷
3조개의 토큰을 포함한 오픈소스 텍스트 데이터셋과 툴킷 Dolma는 앨런AI연구소(Allen Institute for AI)라는 곳에서 오픈소스로 공개한 3조개의 토큰을 포함한 텍스트 데이터셋과 툴킷입니다. Dolma 데이터셋은 원래는 앨런AI연구소에서 개발한 OLMO 모델의 교육을 위해 만들어졌습니다. 주로 학술 출판물, 위키피디아 등의 웹 콘텐츠, 코드, 도서 및 백과사전 자료 등이 포함되어 있다고 합니다. 이전에 발표된 Llama 2 사전학습 모델이 2조 개의 토큰 데이터셋을 이용했다고 했으니 그보다 50% 이상 더 큰 데이터셋인 셈입니다. 언어 측면에서는 영어 데이터로 한정해서 필터링을 했다고 합니다. 그리고, AI2 Impact 라이선스를 도입했는데 이는 다른 것과는 약간 다른 컨셉이니 링크에..
AI 기술
2024. 9. 2. 09:43