| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 이미지 편집
- 인공지능
- 딥러닝
- LLM
- 일론 머스크
- 음성 인식
- 확산 모델
- ChatGPT
- XAI
- 우분투
- 생성형AI
- PYTHON
- 강화학습
- 메타
- 음성합성
- 티스토리챌린지
- gaussian splatting
- 트랜스포머
- 자동화
- 오픈AI
- 멀티모달
- AI 기술
- 감정 표현
- AI
- 오블완
- tts
- OpenAI
- 이미지 생성
- 오픈소스
- 바이브코딩
- Today
- Total
목록LLM (21)
AI 탐구노트
초등생 자녀를 둔 부모이다보니, 아이를 위해 이 분야 퀴즈도 하나 만들어봐야겠다 싶었습니다. 그래서 도형, 특히 육면체의 전개도를 이용한 퀴즈를 만들었습니다. 그런데, 프로그램이 내놓는 답이 맞는지 저도 매번 헷갈리는 겁니다. 그래서, 해당 문제를 가지고 최신 LLM들한테 퀴즐 내 봤습니다. 맞는지 제가 검증을 해 보려구요. 오늘은 그 테스트 결과를 소개해 드릴까 합니다. 초등학교 수학문제로 LLM의 사유 과정을 비교해 봤습니다. 정육면체 전개도를 보여주고 접었을 때 겹치는 점과 선분을 맞히는 문제입니다. 2개의 문제를 던졌는데 1번은 ChatGPT, Gemini, Claude, Grok에게, 2번은 1번을 맞힌 ChatGPT, Gemini 두 곳에 질문했습니다. 1) 첫번째 질문 : 전개도를 접었..
우연히 생성형 AI 모델을 이용해 예술 작품을 만드는 분의 유튜브 채널을 하나 알게 되었습니다. '우와 신기하네~ 하나만 볼까?' 하다가 순식간에 30여개 영상을 이어서 보게 됐죠. AI로 만든 영상임을 알고 봤지만 색감이나 표현법 등이 너무 멋져서 간단히 사이트 링크만 소개하고 넘어가겠습니다. bandyquantguyI work with LLMs to create, learn, teach, and research. If you'd like to support my work, considering joining my patreon at https://patreon.com/bandyquantguy.www.youtube.com 멋진 작품들이 잔뜩 있는데 의외로 조회수가 너무 적더군요. 왜? 라는 생각..
우리가 일상적으로 접하는 신제품 — 예를 들어 새로운 샴푸나 치약 — 은 출시 전에 반드시 '소비자 조사'를 거칩니다. 이 과정에서 기업은 '당신은 이 제품을 사겠습니까?' 같은 질문을 던지고, 1~5점의 리커트 척도(Likert Scale) 로 응답을 받습니다. 하지만 이런 설문에는 문제가 있습니다. 응답자가 귀찮아서 중간 점수(3)만 누르거나, 긍정적인 답변을 선호하는 긍정 편향(positivity bias) 때문에 실제 의도보다 높은 점수를 줄 수도 있습니다. 이런 조사 비용은 전 세계적으로 매년 수십억 달러에 이르지만, 그 결과는 종종 '부정확한 수요 예측'으로 이어집니다. 그래서 연구자들은 최근 대형 언어모델(LLM, Large Language Model) 을 이용해 '가상의 소비자(Synthe..
대규모 언어모델(LLM)은 방대한 데이터를 학습하고, 질문에 답하거나 글을 생성할 수 있습니다. 그러나 이 모델이 모든 지식을 다 기억하는 것은 불가능하기 때문에, 검색을 통해 외부 지식을 불러와 활용하는 방식이 널리 사용되고 있습니다. 이를 검색 기반 생성(RAG: Retrieval-Augmented Generation) 이라고 부르죠. 예를 들어, 질문을 받으면 먼저 관련 문서를 찾아오고, 그 문서를 바탕으로 답변을 생성하는 식입니다.하지만 이런 방식에는 큰 문제가 있습니다. 검색을 통해 가져온 문서가 많아질수록 모델이 처리해야 하는 입력의 길이가 길어지고, 그만큼 계산 속도가 느려집니다. 특히 답변의 첫 단어를 출력하기까지 걸리는 시간이 매우 길어지는데, 이는 사용자 경험에 직접적인 불편을 줍니다...
최근 X에서 Grok과 관련된 내용들이 많이 올라오고 있습니다. 주로 Grok을 이용해 생성된 이미지나 영상 짤 형태로 말이죠. LLM이나 생성형 AI 쪽은 워낙 하루가 멀다하고 새로운 서비스들을 나오고 있어서 그러려니 했는데, 새 버전 공개 후 밈이 형성되는지 분위기가 심상찮은 것 같아서 간단하게나마 조사해 보고 넘어가려고 합니다. Grok-4 개요 Grok-4는 xAI가 2025년 7월 9일에 출시한 최신 프론티어 AI 모델입니다. 이전 버전(Grok-3 등)보다 크게 향상된 추론 능력을 자랑하죠. 그도 그럴 것이 X(구 트위터)에 축적된 많은 데이터와 Colosus라는 수십만개 GPU 규모의 희대의 초거대 GPU 클러스터를 활용해 열심히 훈련된 AI이기 때문입니다. 사실 Grok은 xAI의 철학인..
인공지능의 발전 속도는 눈부시지만, 뛰어난 성능을 가진 대규모 언어 모델(LLM)을 만들기 위해서는 여전히 막대한 양의 인간이 만든 학습 데이터와 정답 레이블이 필요합니다. 문제는 이런 데이터 제작이 비용과 시간이 많이 들고, 무엇보다 사람의 지식을 기반으로 하기 때문에 모델이 인간 이상의 능력에 도달하기 어려운 구조적 한계를 안고 있다는 점입니다. 최근에는 ‘스스로 배우는 AI’를 향한 연구가 활발합니다. 모델이 스스로 문제를 만들고 풀어보면서 학습하는 방식인데, 여전히 초기 문제집(데이터셋)이 필요하거나, 외부의 정답 검사기를 이용해야 하는 경우가 많았습니다. 특히 수학과 같이 정답이 명확한 분야는 가능했지만, 개방형 추론과 같이 검증이 어려운 분야에서는 품질 관리가 쉽지 않았습니다. R-Zero는 ..
몇 시간 전 Grok의 신버전인 Grok4, Grok4 Heavy가 생방송으로 소개되었습니다. 그 내용을 간략하게 정리해서 공유 합니다. 1.발표 개요 xAI(일론 머스크가 설립한 AI 스타트업)이 7월 9일 (현지 시간 기준, 한국시간으로는 7월 10일 정오), 라이브 방송으로 Grok4 와 Grok4 Heavy 모델을 선보였습니다. 방송에 직접 나온 일론은 '세계에서 가장 강력한 AI 어시스턴트', '모든 학문 분야에서 박사과정보다 나은 수준', '올해 중 새로운 기술을 발명하고 내년에는 새로운 물리 법칙을 발견할 수도 있다' 라는 등의 언급을 하며 Grok을 야심차게 소개했습니다. 하지만 이번 공개가 OpenAI의 ChatGPT-5의 공개에 앞서 진행된 것이라 조만간 순위가 다시 뒤집힐 수도 있습니..
인공지능, 특히 대형 언어모델(LLM)의 발전은 우리 사회와 산업에 큰 변화를 가져왔습니다. 최근에는 단순한 언어 이해를 넘어서 논리적 사고와 문제 해결 능력을 갖춘 ‘대형 추론 언어모델(LRM, Large Reasoning Models)’이 등장해 주목받고 있습니다. 예를 들어 OpenAI의 o1/o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking, Gemini Thinking 같은 모델들은 CoT(Chain of Thought)와 자기 성찰(self-reflection) 같은 '생각하는 과정'을 명시적으로 표현하며 복잡한 문제 해결에서 좋은 성과를 보여줍니다.하지만 이런 LRM이 실제로 ‘진짜 추론’을 하고 있는지, 또는 패턴 인식과 데이터 암기에서 비롯된 결과인지에 대한 ..
카카오의 SLM 카나나 (Kanana) 공개드디어 카카오가 카나나 1.5 버전을 오픈소스로 공개했습니다. 작년 10월 'if(kakaoAI) 2024' 행사에서 소개된 AI 에이전트로 소개(링크)되었었고, Nano 2.1B 모델은 올해 2월에 공개된 바 있었습니다. 이후 정식 버전은 언제쯤? 하며 기다려왔었는데 드디어 공개된 것입니다. 올해 5월 초에는 정식 출시에 앞서 한정된 이용자 대상으로 비공개 테스트 (CBT)를 진행한다고 밝힌 바 있긴 해서 조만간 공개가 되겠지 하는 생각은 하고 있었습니다. 하지만 생각보다 빠른 시기에 오픈을 했네요. 오픈소스 공개된 Kanana 버전이번에 공개된 카나나 버전은 아래의 4 종입니다. 이 버전들은 Hugging Face(링크)에서 접할 수 있습니다. 1.5-8b-..
최근 인공지능 기술, 특히 LLM의 발전은 자연어 처리(NLP)와 다양한 AI 분야에 혁신적인 변화를 가져오고 있습니다. 이 모델들은 문서 요약, 코드 생성, 질의응답 시스템 등 광범위한 응용에 활용되고 있습니다. 특히 대규모 데이터를 한 번에 이해하고 처리할 수 있는 능력은 중요한 성능 지표로 자리 잡았습니다. 그러나 LLM이 한 번에 다룰 수 있는 입력 길이(컨텍스트 윈도우)는 여전히 제한적이며, 이를 극복하려는 시도가 활발히 진행되고 있습니다.최근 업계는 모델의 컨텍스트 윈도우 크기를 확장하는 데 많은 노력을 기울이고 있습니다. GPT-4, Claude-3, Gemini-Pro 등은 최대 1백만 토큰까지 확장할 수 있다고 주장하지만, 실제 성능은 기대에 못 미치는 경우가 많습니다. 또한 윈도우 크기..
