일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 이미지 생성
- 딥러닝
- 강화 학습
- 아두이노
- 우분투
- LLM
- OpenAI
- 확산 모델
- TRANSFORMER
- 시간적 일관성
- 인공지능
- 트랜스포머
- 휴머노이드 로봇
- 생성형 AI
- tts
- AI
- 일론 머스크
- AI 기술
- 실시간 렌더링
- PYTHON
- 멀티모달
- 오픈AI
- LORA
- 메타
- 다국어 지원
- ChatGPT
- 오픈소스
- 티스토리챌린지
- 오블완
- OpenCV
- Today
- Total
목록전체 글 (572)
AI 탐구노트

마이크로소프트의 Phi-3 기반 비전 모델 마이크로소프트에서 Phi-3 Vision 모델을 공개했습니다. Phi-2가 공개된 것이 작년 12월, Phi-3가 올 4월이었으니 확실히 생성형 AI와 LLM 분야는 비즈니스 기회가 확실하고 투자규모가 커서 그런지 발전 속도도 무지 빠른 것 같습니다. 예전 소식에서 말씀드린 바와 같이 Phi 모델들은 데이터 전체가 아닌 핵심적인 것만 집중적으로 학습하는 하는 방식으로 적은 데이터셋으로 높은 성능을 내도록 되어 있는데 그 컨셉은 그대로 이어진다고 합니다. Phi-3-vision-128K-Instruct의 경우, 4.2B개의 매개변수가 있으며 내부적으로 이미지 인코더, 커넥터, 프로젝터 및 Phi-3 Mini 모델이 포함되어 있다고 합니다. 500B 크기..

프랑스의 AI 스타트업인 Kyutai에서 지난 주 실시간 챗봇 서비스 Moshi를 공개했습니다. 사람의 감정을 이해하고 다양한 스타일로 대화할 수 있다고 합니다. 흠... 여기까지만 보면 GPT-4o의 대화 장면이 떠오릅니다. Moshi의 특징을 보면, 속삭이거나 악센트가 있는 말투를 포함해 70개의 감정과 대화 스타일을 지원하고, 두 개의 오디오 스트림을 이용하는 방식을 이용해 동시에 듣고 말할 수 있으며 무엇보다도 일반 PC 등에서 구동이 가능한 경량 버전이 제공되고 160ms 이내의 지연을 지원한다는 것입니다. 실제 데모 영상을 보면 사람 화자가 말을 하는 중에도 말을 끼어들거나 할 정도로 반응 속도가 엄청 빨랐습니다. 심지어 너무 불편할 정도로 반응이 빠르다는 느낌이 들 때도 있었죠. 그리고, 부..

LLM과 같은 복잡한 AI 모델들은 내부적으로 어떻게 작동하는지 이해하기 어렵고 그러다보니 예전부터 블랙박스라고 불려 왔습니다. 질문에 대한 답이 어떤 방식으로 도출되었는지를 정확히 설명할 수 없다는 것은 그 답을 신뢰할 수 있는가 하는가 하는 논의로 이어집니다. 최근 발표된 구글의 Gemini 최신 버전에서도 생뚱맞은 답변들을 하는 바람에 논란이 된 바 있죠. 이 문제 때문에 '설명 가능한 인공지능 (XAI: eXplainable AI)'이라는 분야가 화두가 되기도 했습니다. 이 와중에 앤트로픽은 Claude 3 Sonnet 모델에 대해 LLM 내부의 대략적인 개념 상태를 매핑하는 것을 성공했다고 발표했습니다. 즉, LLM 내부의 작동 방식을 개략적으로 이해할 수 있게 되었다는 것이죠. 뿐만 아니라 이..

몰타는 유럽 지중해 한 가운데, 이탈리아의 시실리 섬 바로 아래에 접한 아주 작은 섬나라입니다. 수도는 발레타, 인구는 53만명, 면적은 강화도보다 조금 더 큰 이 나라는 유럽의 손꼽히는 관광지이죠. 몰타는 기업들의 실질실효 법인세율이 5.3% 수준으로 다른 EU국가들의 평균 22%보다 훨씬 낮아서 기업하기 좋은 곳으로 알려져 있습니다. 그 외에 블록체인과 암호화폐의 섬(Blockchain Island)으로 불리기도 하는데, 그것은 2018년부터 세계 최초로 암호화폐공개(ICO) 제도화, 스마트계약을 실제 경제계약으로 인정, 탈중앙 자율조직(DAO)를 법인체로 인정하는 등의 내용을 담은 법안을 만들기도 했기 때문이라고 합니다. (기사) 그런데 이 나라에서 국가 운영 전반에 AI를 적용하겠다는 비전을 선포..

프라이버시 보호를 위한 비식별화 사진에서 작동하는 초상화 매트 모델 P3M-Net은 프라이버시 보호를 위해 얼굴을 알아볼 수 없게 처리된 사진에서도 잘 작동하도록 만들어진 초상화 매트 모델입니다. AI학습용 데이터구축 과제를 진행할 때 수집된 사진들에서 얼굴, 자동차 번호판, 간판, 전화번호 등이 있는 인쇄물 등 개인의 프라이버시와 관련된 것들은 모두 비식별화 처리를 해야 하는 것은 아실 겁니다. 반면 사진에서 사람의 전신 혹은 얼굴 부분을 배경과 분리해야 하는 경우가 있어 초상화 매팅 기법 등을 이용할 때, 이 기법들은 대부분 식별 가능한 초상화 이미지를 기반으로 하는 경우가 많습니다. P3M-Net은 둘 간의 간극을 메우는 경우라고 할 수 있으며, 이를 위해 프라이버시가 보존된 (비식별화된) 초상화 ..

LLM(대규모 언어모델)에서 행렬 곱셈을 완전히 제거하면서도 성능을 유지하도록 만든 모델 1.개요MatMul-free Languge Model (이하 MLM)은 LLM(대규모 언어모델)에서 행렬 곱셈을 완전히 제거하면서도 성능을 유지하도록 만든 모델입니다. 대부분의 신경망의 모델 학습과 추론 과정에는 아주 많은 행렬 곱셈이 사용됩니다. 처리해야 하는 데이터의 양이나 네트워크의 복잡도 등 다양한 이유로 인해 행렬곱의 양도 달라지게 되는데, LLM은 특성 상 많은 양의 행렬곱을 필요로 합니다. 2.적용 기술일반적으로 Dense 레이어에서 입력 벡터와 가중치 행렬의 곱으로 출력을 계산하게 되는데 가중치를 {-1, 0, +1}의 값으로 제한하게 되면 곱셈 대신 덧셈과 뺄셈으로 계산을 대체할 수 있게 됩니다. 또..

텍스트를 이용한 이미지 생성 모델에서 깊이 지도, 스케치, 사람의 자세 등의 조건을 추가하기 위해 ControNet(*1)을 사용하는 경우가 많습니다. 이미지의 경우는 대부분 잘 작동하지만 비디오에 적용하기 위해서는 각 프레임 별로 이 작업이 이뤄져야 하고 프레임 간에는 일관성을 보장하기 어렵다는 문제가 있었죠. CTRL-Adapter는 ControlNet을 효율적으로 재사용하여 이미지 또는 비디오 확산모델에 다양한 공간 제어 조건을 추가할 수도 있도록 만든 프레임워크입니다. 이를 통해 이미지와 비디오 생성 시 더 세밀한 제어가 가능해지고 연산을 위한 자원도 절약할 수 있습니다. 이 프레임워크는 미리 훈련된 ControlNet의 특성을 새로운 확산 모델에 맞게 조정하는 어댑터 모듈을 훈련시키는데, 이는..
구글, '제미나이 라이브'로 차세대 AI 비서 기능 공개구글이 새로운 스마트폰 픽셀9 시리즈와 함께 차세대 AI 비서 기능 '제미나이 라이브'를 발표했습니다. 예전 구글 어시스턴스 때 처럼 'Hey, Google'로 실행할 수 있다고 합니다. 스마트폰에서 활용할 수 있는 AI 기능들이 이제 하나둘씩 추가될 것인데, 애플의 Apple Intelligence가 상용 공개되는 시점이 늦어질 것으로 전망되는 가운데, 구글이 먼저 치고나가 AI 비서 시장에서 주도권을 잡으려는 모양새입니다. '제미나이 라이브'는 영상이나 이미지를 분석해 관련 정보를 제공할 수 있어 다양한 용도로 활용할 수 있을 것으로 기대됩니다. 하지만 아쉽게도... 안드로이드 폰에서 유료 구독 서비스로 출시될 것이라고 하니... 흠... 굳이..

Slicedit은 기존의 T2I(Text to Image) 확산 모델을 이용해 비디오의 특정 부분을 텍스트 설명에 맞게 자연스럽게 편집하는 새로운 방법입니다. 아시는 바와 같이 최근 나오는 많은 T2I 모델들의 성능은 놀라울 정도입니다. 하지만, 이미지가 아닌 비디오 영상에서는 일부에서 많은 발전이 있긴 했지만 아직도 복잡한 움직임 처리 등에서 어려움이 있습니다. Slicedit은 자연 비디오의 시공간 슬라이스가 자연 이미지와 유사한 특성을 지닌다는 점에 착안해, 기존 T2I 확산 모델을 시공간 슬라이스에 적용하는 식으로 접근합니다. 이를 통해 비디오의 구조와 움직임을 유지하면서도 입력되는 텍스트에 맞게 비디오를 편집할 수 있게 됩니다. Slicedit은 비디오의 특정 시점에서 노이즈 볼륨과 어텐션맵을 ..

Octopus v2는 안드로이드 기반 단말기기에서 동작하는 에이전트를 위한 LLM 입니다. 스마트폰 OS 가운데 안드로이드를 타겟으로 하고 있는 것 같습니다. 이를 공개한 NEXA AI의 사이트에 가 보면 Octopus 모델은 v2, v3, v4가 있고, 각각은 20억개 매개변수를 가진 언어모델, 10억개의 매개변수를 가진 텍스트와 이미지를 처리할 수 있는 멀티 모달 모델, 100억개의 매개변수를 가지면서 v2를 마스터노드로 사용하면서 다른 많은 오픈소스 모델들을 작업자 노드 역할을 하도록 만들어진 그래프 네트워크로 소개되어 있습니다. 이 가운데 Octopus v2는 안드로이드 API를 호출하는 기능에 특화되어 있으며 훈련 및 추론 단계 모두에 대한 고유한 기능적 토큰 전략을 채용해, 유사하게 온디바이..