| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- 딥러닝
- AI 기술
- 일론 머스크
- ChatGPT
- 음성합성
- 바이브코딩
- gaussian splatting
- 자동화
- 강화학습
- XAI
- 오픈소스
- 이미지 생성
- 멀티모달
- 티스토리챌린지
- AI
- tts
- OpenAI
- 음성 인식
- 오블완
- 오픈AI
- 감정 표현
- 트랜스포머
- PYTHON
- 우분투
- LLM
- 인공지능
- 생성형AI
- 메타
- 확산 모델
- 이미지 편집
- Today
- Total
목록Reasoning (2)
AI 탐구노트
초등생 자녀를 둔 부모이다보니, 아이를 위해 이 분야 퀴즈도 하나 만들어봐야겠다 싶었습니다. 그래서 도형, 특히 육면체의 전개도를 이용한 퀴즈를 만들었습니다. 그런데, 프로그램이 내놓는 답이 맞는지 저도 매번 헷갈리는 겁니다. 그래서, 해당 문제를 가지고 최신 LLM들한테 퀴즐 내 봤습니다. 맞는지 제가 검증을 해 보려구요. 오늘은 그 테스트 결과를 소개해 드릴까 합니다. 초등학교 수학문제로 LLM의 사유 과정을 비교해 봤습니다. 정육면체 전개도를 보여주고 접었을 때 겹치는 점과 선분을 맞히는 문제입니다. 2개의 문제를 던졌는데 1번은 ChatGPT, Gemini, Claude, Grok에게, 2번은 1번을 맞힌 ChatGPT, Gemini 두 곳에 질문했습니다. 1) 첫번째 질문 : 전개도를 접었..
우리는 일상 속에서 다양한 감각을 이용해 세상을 이해합니다. 시각, 청각, 언어 등 서로 다른 정보를 조합해 더 깊이 있는 판단을 내리죠. 인공지능도 이러한 능력을 갖추기 위해 ‘멀티모달 학습’을 연구하고 있습니다. 이는 텍스트, 이미지, 영상 등 여러 종류의 데이터를 통합해 이해하고 생성하는 기술을 말합니다. 최근에는 이러한 능력을 하나의 모델 안에서 통합하려는 시도가 활발해지고 있습니다. 하지만 대부분의 연구는 이미지-텍스트 쌍(pair) 중심으로 구성된 제한된 데이터에만 의존해왔습니다. 이에 따라 학계에서 공개된 모델들은 구글의 Gemini나 OpenAI의 GPT-4o 같은 상용 시스템과는 성능 차이를 보였습니다. 이 간극을 좁히기 위해 텍스트, 이미지, 영상, 웹 정보가 혼합된 ‘인터리브드(int..
