일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 오블완
- 휴머노이드 로봇
- ChatGPT
- LORA
- OpenAI
- 메타
- 가상환경
- 일론 머스크
- ControlNet
- 딥마인드
- LLM
- 확산 모델
- 트랜스포머
- 딥러닝
- AI
- 생성형 AI
- tts
- PYTHON
- 뉴럴링크
- 티스토리챌린지
- 멀티모달
- 우분투
- 서보모터
- 시간적 일관성
- AI 기술
- ubuntu
- 아두이노
- TRANSFORMER
- 오픈AI
- 인공지능
- Today
- Total
목록2024/08/15 (17)
AI 탐구노트
사전 훈련된 확산 모델의 해상도와 속도를 높이는 훈련 없는 방법 HiDiffusion은 이미지 생성 프레임워크로 확산 기반의 이미지 생성 모델을 이용해 고해상도 이미지를 생성할 때 객체가 불필요하게 중복해서 나타나거나 생성 시간이 많이 걸리는 문제를 해결하기 위해 제안되었습니다. 기능 맵 크기를 동적으로 조절해 객체 중복 문제를 해결하기 위해 RAU-Net (Resolution-Aware U-Net)을, 고해상도 블록의 self-attention에서 발생하는 높은 연산량을 줄이기 위해 MSW-MSA (Modified Shifted Window Multi-head Self-Attention) 메커니즘을 사용했다고 합니다. Text to Image, Image to Image, Image Inpaintin..
마이크로소프트의 Phi-3 기반 비전 모델 마이크로소프트에서 Phi-3 Vision 모델을 공개했습니다. Phi-2가 공개된 것이 작년 12월, Phi-3가 올 4월이었으니 확실히 생성형 AI와 LLM 분야는 비즈니스 기회가 확실하고 투자규모가 커서 그런지 발전 속도도 무지 빠른 것 같습니다. 예전 소식에서 말씀드린 바와 같이 Phi 모델들은 데이터 전체가 아닌 핵심적인 것만 집중적으로 학습하는 하는 방식으로 적은 데이터셋으로 높은 성능을 내도록 되어 있는데 그 컨셉은 그대로 이어진다고 합니다. Phi-3-vision-128K-Instruct의 경우, 4.2B개의 매개변수가 있으며 내부적으로 이미지 인코더, 커넥터, 프로젝터 및 Phi-3 Mini 모델이 포함되어 있다고 합니다. 500B 크기..
프랑스의 AI 스타트업인 Kyutai에서 지난 주 실시간 챗봇 서비스 Moshi를 공개했습니다. 사람의 감정을 이해하고 다양한 스타일로 대화할 수 있다고 합니다. 흠... 여기까지만 보면 GPT-4o의 대화 장면이 떠오릅니다. Moshi의 특징을 보면, 속삭이거나 악센트가 있는 말투를 포함해 70개의 감정과 대화 스타일을 지원하고, 두 개의 오디오 스트림을 이용하는 방식을 이용해 동시에 듣고 말할 수 있으며 무엇보다도 일반 PC 등에서 구동이 가능한 경량 버전이 제공되고 160ms 이내의 지연을 지원한다는 것입니다. 실제 데모 영상을 보면 사람 화자가 말을 하는 중에도 말을 끼어들거나 할 정도로 반응 속도가 엄청 빨랐습니다. 심지어 너무 불편할 정도로 반응이 빠르다는 느낌이 들 때도 있었죠. 그리고, 부..
LLM과 같은 복잡한 AI 모델들은 내부적으로 어떻게 작동하는지 이해하기 어렵고 그러다보니 예전부터 블랙박스라고 불려 왔습니다. 질문에 대한 답이 어떤 방식으로 도출되었는지를 정확히 설명할 수 없다는 것은 그 답을 신뢰할 수 있는가 하는가 하는 논의로 이어집니다. 최근 발표된 구글의 Gemini 최신 버전에서도 생뚱맞은 답변들을 하는 바람에 논란이 된 바 있죠. 이 문제 때문에 '설명 가능한 인공지능 (XAI: eXplainable AI)'이라는 분야가 화두가 되기도 했습니다. 이 와중에 앤트로픽은 Claude 3 Sonnet 모델에 대해 LLM 내부의 대략적인 개념 상태를 매핑하는 것을 성공했다고 발표했습니다. 즉, LLM 내부의 작동 방식을 개략적으로 이해할 수 있게 되었다는 것이죠. 뿐만 아니라 이..
몰타는 유럽 지중해 한 가운데, 이탈리아의 시실리 섬 바로 아래에 접한 아주 작은 섬나라입니다. 수도는 발레타, 인구는 53만명, 면적은 강화도보다 조금 더 큰 이 나라는 유럽의 손꼽히는 관광지이죠. 몰타는 기업들의 실질실효 법인세율이 5.3% 수준으로 다른 EU국가들의 평균 22%보다 훨씬 낮아서 기업하기 좋은 곳으로 알려져 있습니다. 그 외에 블록체인과 암호화폐의 섬(Blockchain Island)으로 불리기도 하는데, 그것은 2018년부터 세계 최초로 암호화폐공개(ICO) 제도화, 스마트계약을 실제 경제계약으로 인정, 탈중앙 자율조직(DAO)를 법인체로 인정하는 등의 내용을 담은 법안을 만들기도 했기 때문이라고 합니다. (기사) 그런데 이 나라에서 국가 운영 전반에 AI를 적용하겠다는 비전을 선포..
프라이버시 보호를 위한 비식별화 사진에서 작동하는 초상화 매트 모델 P3M-Net은 프라이버시 보호를 위해 얼굴을 알아볼 수 없게 처리된 사진에서도 잘 작동하도록 만들어진 초상화 매트 모델입니다. AI학습용 데이터구축 과제를 진행할 때 수집된 사진들에서 얼굴, 자동차 번호판, 간판, 전화번호 등이 있는 인쇄물 등 개인의 프라이버시와 관련된 것들은 모두 비식별화 처리를 해야 하는 것은 아실 겁니다. 반면 사진에서 사람의 전신 혹은 얼굴 부분을 배경과 분리해야 하는 경우가 있어 초상화 매팅 기법 등을 이용할 때, 이 기법들은 대부분 식별 가능한 초상화 이미지를 기반으로 하는 경우가 많습니다. P3M-Net은 둘 간의 간극을 메우는 경우라고 할 수 있으며, 이를 위해 프라이버시가 보존된 (비식별화된) 초상화 ..
LLM(대규모 언어모델)에서 행렬 곱셈을 완전히 제거하면서도 성능을 유지하도록 만든 모델 1.개요MatMul-free Languge Model (이하 MLM)은 LLM(대규모 언어모델)에서 행렬 곱셈을 완전히 제거하면서도 성능을 유지하도록 만든 모델입니다. 대부분의 신경망의 모델 학습과 추론 과정에는 아주 많은 행렬 곱셈이 사용됩니다. 처리해야 하는 데이터의 양이나 네트워크의 복잡도 등 다양한 이유로 인해 행렬곱의 양도 달라지게 되는데, LLM은 특성 상 많은 양의 행렬곱을 필요로 합니다. 2.적용 기술일반적으로 Dense 레이어에서 입력 벡터와 가중치 행렬의 곱으로 출력을 계산하게 되는데 가중치를 {-1, 0, +1}의 값으로 제한하게 되면 곱셈 대신 덧셈과 뺄셈으로 계산을 대체할 수 있게 됩니다. 또..