일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 인공지능
- PYTHON
- ChatGPT
- ubuntu
- TRANSFORMER
- 다국어 지원
- tts
- 트랜스포머
- OpenAI
- 우분투
- 오블완
- 확산 모델
- 메타
- 시간적 일관성
- 티스토리챌린지
- 아두이노
- 오픈AI
- LLM
- OpenCV
- AI 기술
- 강화 학습
- 멀티모달
- 생성형 AI
- 딥러닝
- 휴머노이드 로봇
- 오픈소스
- 일론 머스크
- AI
- LORA
- Stable Diffusion
- Today
- Total
목록Microsoft (4)
AI 탐구노트

Microsoft가 개발한 최첨단 경량 멀티 모달 AI 모델 Phi-3.5-vision은 Microsoft가 개발한 멀티모달 AI 모델입니다. Phi-3.5-vision은 텍스트와 이미지를 동시에 처리할 수 있어 이미지 인식, 비디오 요약, OCR(광학 문자 인식), 시각적 질문 응답 등의 다양한 작업을 수행할 수 있고 문서 분석과 과학적 차트 해석에서도 강점을 보이며 자원을 효율적으로 사용하여 훨씬 더 큰 규모의 모델에 필적하는 성능을 보여줍니다. 이 모델은 GPU 환경에서 최적의 성능을 발휘하도록 설계되었으며, 특히 데이터 세트 기반 학습과 인간의 피드백을 통한 강화 학습 방식을 사용합니다. 확장성과 효율성 문제를 해결하기 위해 MoE(Mixture of Experts) 아키텍처를 도입했습니다. 기존..

마이크로소프트가 공개한 다국어 TTS 모델 VALL-E X는 Microsoft가 개발한 Cross-lingual 음성 합성 모델로, 하나의 언어로 된 음성을 다른 언어로 변환합니다. 이 모델은 음성의 감정과 음색을 유지하면서, 학습된 데이터 없이 새로운 언어로 음성을 생성할 수 있는 기능을 갖추고 있습니다. 이를 통해 제로샷 텍스트-음성 합성 및 음성-음성 번역을 지원합니다. VALL-E X는 외국 억양을 효과적으로 제어할 수 있으며, 감정 유지 및 코드 스위칭 기능도 제공합니다. 사용상의 윤리적 문제를 예방하기 위한 조치도 고려되었다고 하죠. 텍스트 프롬프트, 오디오 파일 등을 입력으로 해서 다국어 TTS와 제로샷 음성 복제 기능을 제공하는데, 6GB VRAM의 GPU 혹은 CPU에서도 동작된다고 합니..

마이크로소프트에서 공개한 경량 LLM 모델 Phi-1.5는 Microsoft가 발표한 공개 LLM 모델입니다. 13억개의 매개변수를 가진 상대적으로 덩치가 작은 sLLM 쪽에 가깝습니다. Microsoft에서는 소규모 Transformer 기반 언어모델의 성능에 대한 연구가 계속 진행해왔으며 그 결과 Phi-1 이후 Phi-1.5까지 이르게 되었고 13B로 70B의 매개변수를 가지는 Llama2 모델의 성능과 유사한 결과를 낸다고 하네요. 이 모델은 사회적 편견 이해, 독성 감소 등을 목적으로 하고 있기에 학습에 사용한 데이터 자체에 먼저 집중했습니다. '교과서 품질'의 데이터셋을 구성하기 위해 웹에서 크롤링한 데이터를 배제했습니다. 그리고 기존 LLM을 활용하는 방식으로 접근했으며 인간 피드백을 통한 ..

텍스트 이미지 생성을 위한 새로운 다중 LoRA(Low-Rank Adaptation) 구성방식인 LoRA Switch와 LoRA Composite를 발표 Microsoft와 일리노이 대학교 연구진이 텍스트 이미지 생성을 위한 새로운 접근방법으로 다중 LoRA(Low-Rank Adaptation) 구성방식인 LoRA Switch와 LoRA Composite를 발표했습니다. 별도의 미세조정없이 여러 개의 LoRA를 통합하는 것인데 기존 LoRA 가중치 병합 방식(LoRA Merge)과는 달리 개별 LoRA의 가중치는 그대로 유지하고 디코딩 프로세스에 중점을 두고 있습니다. 그러다보니 기존 방식에서 LoRA가 추가될 수록 디테일이 떨어지고 왜곡이 심해지던 현상을 개선할 수 있게 되었다고 합니다. GPT-4V를..