일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 시간적 일관성
- 딥러닝
- OpenAI
- LORA
- 오픈AI
- AI
- 아두이노
- 확산 모델
- 가상환경
- 메타
- ControlNet
- 생성형 AI
- 서보모터
- ChatGPT
- TRANSFORMER
- AI 기술
- 딥마인드
- ubuntu
- tts
- 휴머노이드 로봇
- LLM
- 뉴럴링크
- 트랜스포머
- 인공지능
- 우분투
- PYTHON
- 일론 머스크
- 멀티모달
- 오블완
- 티스토리챌린지
- Today
- Total
목록2024/08 (123)
AI 탐구노트
저사양 로컬 장비에서 구동가능한 소형 언어모델 (SLM) TinyLlama는 StatNLP 연구 그룹과 싱가포르 기술 디자인 대학이 함께 개발한 11억 개의 매개변수로 작동하는 소형 언어모델(SLM)입니다. 아시는 바와 같이 LLM(Large Language Model)은 수많은 매개변수를 가지고 있으며 대부분은 수천억~수조개 수준의 대규모의 토큰을 가진 데이터셋으로 학습시키고 있습니다. Llama 모델을 공개한 Meta의 경우, 사전학습된 모델만 공개할 뿐 이를 학습시키기 위해 사용한 데이터셋 자체는 공개하고 있지 않습니다. 다들 이를 기반모델(base model)로 해서 각자의 용도에 맞춰 파인튜닝을 하는 방식으로 활용하고 있죠. TinyLlama는 3조개의 토큰 데이터로 학습되었고 11억개의 매..
제이엘케이, AI 뇌혈관 솔루션 공급 계약 체결…검진센터의 진단 능력 강화 기대제이엘케이(JLK)가 하트스캔 검진센터와 인공지능(AI) 기반 뇌혈관 질환 진단 솔루션 공급 계약을 체결했으며, 하트스캔 검진센터는 JLK의 JLK-UIA와 JLK-SVD 패키지를 포함한 4가지 뇌질환 솔루션을 검진 및 진료에 도입하게 된다고 합니다. (뉴시스) SK쉴더스, 클라우드와 AI로 보안 시장 확대SK쉴더스는 클라우드와 인공지능(AI) 기술을 새로운 수익 창출의 핵심으로 삼고, 이를 통해 기존 보안 솔루션의 고도화와 매출 증대를 꾀하고 있는데, 클라우드 보안 강화와 MSP와의 협력, 그리고 AI 카메라 기반 침입탐지 등을 이용한 보안 솔루션 고도화 등을 통해 새로운 수익 창출 기회를 모색 중입니다. (머니투데이) ..
실시간 상호작용하며 시뮬레이션 가능한 신경망 기반의 게임 엔진 GameNGen은 구글에서 공개한 신경망 기반의 게임 엔진으로, 복잡한 환경을 실시간으로 상호작용하며 시뮬레이션할 수 있는 최초의 모델입니다. 기존의 게임 엔진은 수작업으로 작성된 규칙과 로직에 따라 상태를 업데이트하고 렌더링하기 때문에 확장성과 자동화가 제한적입니다. 또한, 기존의 신경망 기반 시뮬레이션은 시뮬레이션 속도나 안정성, 또는 시각적 품질이 낮다는 한계가 있었습니다. GameNGen은 강화 학습 에이전트를 통해 수집된 데이터를 바탕으로 확장된 Stable Diffusion 모델을 학습하여 실시간 상호작용이 가능한 게임 시뮬레이션을 구현했습니다. 이 모델은 행동과 이전 프레임들을 조건으로 다음 프레임을 예측하며, 노이즈 증강을 통..
AI 기반 약물 개발 모델 ActFound, 새로운 가능성 제시중국과 미국의 과학자들이 개발한 AI 모델 ActFound는 데이터가 부족한 상황에서도 정확한 생물학적 활성 예측이 가능하며, 전통적인 계산 방법보다 더 효율적이고 비용도 절감할 수 있어 약물 개발 과정에서의 주요 과제를 극복하며, 기존 방법들보다 뛰어난 성능을 보여준다고 합니다. ( SCMP) 기업 AI 활용률 저조, 인프라 및 재원 부족이 주요 원인국내 기업의 78.4%가 AI 기술의 필요성을 느끼지만 실제 활용률은 30%에 불과하며, 특히 제조업에서는 활용률이 23.8%로 낮고, 중소기업과 비수도권 기업은 AI 도입에 큰 어려움을 겪고 있는데, 주요 원인은 AI 인프라와 재원 부족이라고 합니다. (비즈니스포스트)루닛, 의료AI 분야에서 ..
스케치 등의 이미지를 기반으로 주어지는 프롬프트를 이용해 사용자가 컨트롤할 수 있는 2D 대화형 게임을 만드는 생성형 AI Genie는 구글이 게임 메커니즘에 대한 사전 교육이 없이 사진이나 AI 생성 이미지, 개인이 직접 그린 스케치 등의 이미지를 기반으로 주어지는 프롬프트를 이용해 사용자가 컨트롤할 수 있는 2D 대화형 게임을 만드는 생성형 AI입니다. 기초 세계모델(foundation world model)로 시공간 비디오 토크나이저, 자동회귀 역학 모델, 그리고 확장 가능한 잠재 동작 모델로 구성됩니다. 20,000 시간 이상의 2D 인터넷 게임 비디오 영상 데이터셋으로 훈련해 게임 플레이를 자율적으로 이해하게 되었다고 합니다. 캐릭터의 동작에 대한 훈련을 별도로 하지 않았음에도 학습된 잠재 행..
고품질의 일관된 다중 뷰 이미지를 생성하여 인간 3D를 재구성할 수 있게 만드는 모델 MagicMan은 단일 이미지로부터 고품질의 일관된 다중 뷰 이미지를 생성하여 인간 3D 재구성을 가능하게 하는 모델입니다. 기존의 단일 이미지 기반 인간 3D 재구성 방법들은 부족한 훈련 데이터로 인한 일반화 능력의 약화와 3D 일관성 부족으로 인해 제한된 성능을 보입니다. 특히, 포즈 추정의 부정확성으로 인해 왜곡된 3D 재구성 결과가 발생합니다. MagicMan은 사전 훈련된 2D 확산 모델(Stable Diffusion)과 3D 신체 모델(SMPL-X)을 결합하여 다중 뷰 일관성을 개선하고, 하이브리드 멀티뷰 어텐션 메커니즘과 기하학적 인식 듀얼 브랜치를 도입하여 다중 뷰 간의 정보 교환을 효율적으로 수행합니다...
알리바바 그룹이 공개한 오디오 기반 초상화(portrait) 비디오 생성 프레임워크 EMO (Emote Portrait Alive)는 알리바바 그룹이 공개한 오디오 기반 초상화(portrait) 비디오 생성 프레임워크입니다. 참조 이미지 한장과 보컬 오디오 클립을 입력하면 오디오가 입혀진, 그것도 입모양과 안면 움직임 등이 자연스럽게 반영된 비디오 영상을 생성하는데, 250시간 이상의 영상과 1억 5천만 개 이상의 이미지를 학습 데이터셋으로 사용했다고 합니다. 공개된 데모 영상이 너무 자연스러워서 깃헙 게시판에는 실행 코드를 공개하기 전까지는 못 믿겠다는 반응도 일부 있었습니다. ^^; 이 경우처럼, 모델 공개 때 깃헙 링크를 함께 공개하면서 실행코드가 없는 경우들을 가끔 볼 수 있죠. 하지만 대부분 언..
실시간으로 깊이 추정을 개선하는 모델 DoubleTake는 이전 프레임에서 얻은 3D 기하학적 정보를 활용하여 실시간으로 깊이 추정을 개선하는 모델입니다.기존의 깊이 추정 모델들은 실시간으로 깊이를 예측하는 과정에서 정확도가 떨어질 수 있으며, 특히 이전 프레임의 정보나 장면의 전체적인 기하학적 구조를 충분히 활용하지 못했습니다. 이런 문제를 해결하기 위해 DoubleTake는 이전 프레임에서 생성된 3D 기하학적 정보를 현재 프레임의 입력으로 사용하여 깊이 예측을 개선합니다. 이를 위해 Hint MLP를 도입해, 다중 뷰 스테레오(MVS) 기반의 코스트 볼륨에 이전의 기하학적 정보를 결합합니다.* 다중 뷰 스테레오(MVS)는 여러 각도에서 찍은 사진들을 비교해서 물체까지의 거리를 측정하는 기술이고 코스..
마이크로소프트에서 공개한 경량 LLM 모델 Phi-1.5는 Microsoft가 발표한 공개 LLM 모델입니다. 13억개의 매개변수를 가진 상대적으로 덩치가 작은 sLLM 쪽에 가깝습니다. Microsoft에서는 소규모 Transformer 기반 언어모델의 성능에 대한 연구가 계속 진행해왔으며 그 결과 Phi-1 이후 Phi-1.5까지 이르게 되었고 13B로 70B의 매개변수를 가지는 Llama2 모델의 성능과 유사한 결과를 낸다고 하네요. 이 모델은 사회적 편견 이해, 독성 감소 등을 목적으로 하고 있기에 학습에 사용한 데이터 자체에 먼저 집중했습니다. '교과서 품질'의 데이터셋을 구성하기 위해 웹에서 크롤링한 데이터를 배제했습니다. 그리고 기존 LLM을 활용하는 방식으로 접근했으며 인간 피드백을 통한 ..
텍스트 이미지 생성을 위한 새로운 다중 LoRA(Low-Rank Adaptation) 구성방식인 LoRA Switch와 LoRA Composite를 발표 Microsoft와 일리노이 대학교 연구진이 텍스트 이미지 생성을 위한 새로운 접근방법으로 다중 LoRA(Low-Rank Adaptation) 구성방식인 LoRA Switch와 LoRA Composite를 발표했습니다. 별도의 미세조정없이 여러 개의 LoRA를 통합하는 것인데 기존 LoRA 가중치 병합 방식(LoRA Merge)과는 달리 개별 LoRA의 가중치는 그대로 유지하고 디코딩 프로세스에 중점을 두고 있습니다. 그러다보니 기존 방식에서 LoRA가 추가될 수록 디테일이 떨어지고 왜곡이 심해지던 현상을 개선할 수 있게 되었다고 합니다. GPT-4V를..