일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- LORA
- 휴머노이드 로봇
- 다국어 지원
- 멀티모달
- AI
- 아두이노
- 메타
- 오픈소스
- 오픈AI
- 강화 학습
- 티스토리챌린지
- 생성형 AI
- TRANSFORMER
- AI 기술
- ChatGPT
- LLM
- PYTHON
- tts
- 트랜스포머
- 일론 머스크
- 우분투
- ubuntu
- 인공지능
- 시간적 일관성
- 확산 모델
- 오블완
- 딥러닝
- Stable Diffusion
- OpenAI
- OpenCV
- Today
- Total
목록2024/08 (123)
AI 탐구노트

인간의 실제 신체 모양과 동작과 유사하게 재현하는 모델 SMPLer-X은 인간의 신체 (몸, 손, 얼굴 등)의 모양과 동작을 실제와 유사하게 재현하도록 만들어주는 모델입니다. 사진이나 비디오에서 관찰된 사람의 포즈와 형태를 정확하게 추정하는 것을 목표로 하죠. 이 모델은 3D 신체 모델링을 위한 SMPL 모델을 확장한 것으로, 백본(backbone)에서는 ViT(Vision Transformer)를 이용해 이미지 특징을 추출하고, Neck에서는 특징맵에서 손과 얼굴의 바운딩 박스와 자르기 관심 영역 예측하며, Head(Regression Head)에서는 각 부분의 매개변수를 추정하도록 구성되어 있습니다. 기존 방식은 한정된 훈련 데이터셋에 의존하므로 이제껏 보지 못했던 시나리오에 일반화하는 것이 어려웠습..

AI가 포항제철소의 안전과 생산성을 어떻게 높였나포스코 포항제철소는 인공지능(AI) 기술을 활용해 생산성과 안전을 크게 향상시켰는데, AI는 1000도에 달하는 쇳덩이 슬라브의 이동을 실시간으로 감시해 이상 징후를 미리 감지하고 사고를 예방한답니다. (서울경제) 루게릭병 환자, 뇌 전극으로 '말문' 열다미국 연구진이 루게릭병 환자의 뇌에 전극 256개를 이식한 후 뇌 신호를 분석해 환자가 생각하는 말을 컴퓨터로 표현하는 데 성공했습니다. (YTN) AI 시대를 위한 IBM과 삼성의 차세대 칩셋 협력IBM은 삼성전자의 5나노 공정으로 제작된 AI 칩셋 '텔럼2'와 '스파이어'를 발표했는데, 이 칩은 데이터 입출력과 AI 처리 능력이 강화되었고 금융과 공공 시장을 겨냥하고 있습니다. (서울경제) 양자 기술..

텍스트로 음악을 이해하고 생성하는 오픈소스 LLM 모델 ChatMusician는 음악을 생성하는 오픈소스 LLM 모델입니다. 여기에는 LLaMA2가 적용되어 있으며 음악의 텍스트 호환 음악 표현, ABC 표기법 등을 사전 훈련하고 미세조정을 거쳤습니다. 일반적으로 음악이라고 하면 아... 당연히 멀티모달 방식이겠구나 하실 수도 있는데 ChatMusian의 경우에는 순수하게 텍스트 토크나이저로 음악을 이해하고 생성합니다. 게다가 텍스트, 코드, 멜로디, 모티브, 음악 형식 등을 조건으로 구조화된 음악을 구성할 수 있다고 하네요. 사전 훈련에 사용한 코퍼스 데이터는 MusicPie 것인데, 훈련 데이터 대부분이 아일랜드 음악 스타일이라고 하며 형식도 아직은 엄격히 정의된 형식과 폐쇄형 지침만 지원되는 제약..

Stability AI와 Tripo AI가 제휴해서 만든 고품질 3D 모델 생성도구 Stability AI와 Tripo AI가 제휴를 통해 TripoSR이라는 고품질 3D 모델 생성도구를 공개 했습니다. LRM(Large Reconstruction Model)의 원리를 활용해서 3D 재구성 속도와 품질을 향상시킨 것이 기존의 다른 유사 모델 대비 가지는 차별점인 것 같습니다. GPU 외에 CPU에서도 구동 가능하며, 고품질의 3D 모델을 0.5초 (A100 기준) 이내에 만들어 낼 수 있다고 하니 자랑할만하네요. ^^; 제공되는 데모를 이용하면 2D 사진을 입력으로 하면 3D로 모델을 생성해 특정 포맷(obj)으로 다운로드도 가능합니다. 그렇다는 얘기는 obj를 stl로 변환해서 3D 프린터로 출력도 가..

PC방의 유휴 GPU를 공유하는 서비스 등장 네이버클라우드가 데이터얼라이언스와 협력해 PC방의 유휴 GPU를 공유하는 서비스 '지큐브'를 출시한다는데, 이 서비스는 공급 부족과 높은 가격으로 어려움을 겪는 AI 관련 기업들에게 최대 70% 저렴한 GPU 대여할 수 있고 PC방은 남는 GPU로 추가 수익을 거둘 수 있을 것으로 전망됩니다. (ETNews) 진로정보 사이트 커리어넷 해킹으로 160만여명 개인정보 유출진로정보 사이트 커리어넷이 해킹당해 160만여 명의 개인정보가 유출되었는데, 유출된 개인정보의 암호화 수준이 낮아 2차 피해가 우려된다고 합니다. (ETNews) 정부, AI·반도체 등 12개 전략기술에 30조원 투자 발표정부가 향후 5년간 AI, 반도체 등 12대 국가전략기술에 총 30조 원을..

Microsoft가 공개한 1bit 양자화 기반 LLM 구현을 위한 기술 지난 2월에 Microsoft가 발표한 논문에서 소개된 기술입니다. LLM 모델 발표 초기에는 8bit, 4bit 하면서 연산량 절감 기술들이 많이 소개되었는데 그 이후부터는 기본으로 깔고 가서 그런지 그런 얘기들은 점점 메인 주제에서 보이지 않았습니다. 그러다 이번에 Microsoft가 발표한 논문은 BitNet 1.58B로 1bit 기술을 이용해서 LLM을 만들 수 있다는 소식을 전했습니다. (참고로 1.58B는 3개의 값(-1,0,1)을 동일한 확률로 인코딩할 때의 엔트로피값을 의미한답니다) BitNet 1.58B는 계산복잡성이 감소하고 처리속도는 빨라지고, 메모리 사용량은 줄게 될테니 전반적인 에너지 효율성은 크게 증가합니..

저해상도 모노 오디오를 고해상도 스테레오 오디오로 만들어주는 고음질 스테레오 보코더 모델 일반적으로 오디오 생성/변환을 위해서는 오디오의 멜-스펙트로그램을 생성한 후 이를 오디오로 변환하기 위해 보코더 같은 것을 사용하는데, 기존에는 단일 채널의 낮은 해상도만 지원되는 경우가 많았습니다. MusicHiFi는 이런 점을 개선해 저해상도 모노 오디오를 고해상도 스테레오 오디오로 만들어주는 효율적인 고음질 스테레오 보코더입니다. 이 모델은 저해상도 멜-스펙트로그램을 오디오로 변환하고, 대역폭 확장을 통해 고해상도 오디오로 업샘플링하며, 스테레오 오디오로 업믹스하는 3개의 생성적 적대 네트워크(GAN)의 캐스케이드를 사용합니다. 소개 페이지에 공개된 음원을 이어폰을 이용해서 확인하면 확실히 차이가 나는 것을..

fMRI 데이터로 사람의 시각 인식 내용을 이미지로 재현하는 모델 예전에 뉴럴링크에서 침습적 방식을 이용해 원숭이의 뇌에 전극을 삽입하고 여기서 수집되는 신호를 분석해서 컴퓨터 게임을 시키는 것을 시연한 적이 있었습니다. 당시에는 마우스를 제어하는 수준이었지만 기술방식을 보면 유사한 방식으로 신호의 패턴 등을 분석해서 사람의 다양한 생각을 분별하고 이를 이용해 의사소통을 할 수 있도록 발전될 것이란 기대를 불러 일으켰습니다. 앞서 얘기한 것처럼 이 기술은 현재는 사람에게 적용되어 생각만으로 체스 게임을 할 수 있는 수준까지 와 있습니다. 싱크론이라는 미국 기업도 방식은 약간 다르나 유사 기술을 발표했구요... 일반적으로 뇌활동을 분석해서 시각적 정보로 재구성하는 기술은 아직은 실용성에 한계가 많습니다...

상호작용하는 사물과 인간 이미지가 있는 합성 인간-사물 상호작용 데이터셋 3D 인간-물체 상호작용을 재구성하는 것은 어려운 일입니다. 세상에 존재하는 다양한 물체들이 다 3D 상호작용 데이터셋 내에 존재하는 것은 아니고 상호작용 또한 모든 것을 다 포함하기는 힘들기 때문에 물체, 사람, 상호작용에 대한 일반화가 되어야 하기 때문입니다. 아무래도 많은 실제 데이터가 있다면 좋겠지만 그걸 캡처하고 데이터로 만드는 작업은 많은 비용이 들기 마련이죠. ProciGen (Procedural Interaction Generation)은 21,000개의 다양한 사물과 상호작용하는 인간 이미지가 있는 합성 인간-사물 상호작용 데이터 세트입니다. 가능한 사람과 물체 간의 상호작용과 다양한 물체 변형을 갖는 데이터셋을 ..

실시간 영역 기반 텍스트-이미지 생성 모델 StreamMultiDiffusion은 실시간 영역 기반 텍스트-이미지 생성 모델입니다. 서울대 ComputerVisionLab 연구원들이 발표한 이 모델은 이미지 생성 속도가 이전 대비 훨씬 빨라졌고 모델을 다중 프롬프트 스트림 배치 아키텍처로 재구성했다고 합니다. 그 결과, 사용자가 텍스트 설명을 사용하여 특정 이미지 영역을 세밀하게 제어하면서도 원하는 크기의 고품질 이미지를 빠르게 만들어낼 수 있게 되었습니다. Github Repo에는 지역 기반 다중 텍스트-이미지 생성, 신속한 분리를 통한 이미지 인페인팅, 파노라마 생성 등을 수행하는 코드 예시도 함께 제공하고 있습니다. 여기서 끝나는 게 아니라 연구자들은 고맙게도 Gradio를 활용해 대화형으로 작동..