일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 오픈AI
- TRANSFORMER
- AI
- 우분투
- 가상환경
- 딥마인드
- 일론 머스크
- 이미지 편집
- tts
- 시간적 일관성
- 티스토리챌린지
- 멀티모달
- ChatGPT
- javascript
- 확산 모델
- 서보모터
- 메타
- OpenAI
- LLM
- AI 기술
- 아두이노
- 뉴럴링크
- ControlNet
- PYTHON
- 오블완
- LORA
- 생성형 AI
- ubuntu
- 인공지능
- 트랜스포머
- Today
- Total
목록2024/08 (123)
AI 탐구노트
Unique3D는 단일 뷰 이미지에서 고품질의 3D Mesh를 생성해 내는 이미지 to 3D 프레임워크입니다. 이를 이용하면 한장의 이미지만 가지고 별도의 3D 스캔 작업 없이도 3D 메쉬를 자동으로 생성해 낼 수 있죠. 처리 순서를 보면 입력된 단일 뷰 이미지로부터 다중 뷰 확산 모델을 사용해 여러 시점의 이미지를 생성하고, 점진적으로 높은 해상도로 업스케일링합니다. 업스케일된 컬러 이미지와 노멀 맵에서 복잡한 기하학적 세부사항과 질감으로 3D 메쉬를 재구성하기 위해 메쉬 재구성 알고리즘인 ISOMER를 이용합니다. 기존 다른 방식을 이용하는 경우보다 높은 충실도와 일관성있는 3D 메쉬 결과물, 빠른 생성 속도라는 잇점을 동시에 얻을 수 있다는 장점이 있습니다. 참고) 프로젝트, 논문, 코드, 데모
ToonCrafter는 이미지 to 비디오 생성을 수행하는 확산 기반 모델입니다. 시작 프레임의 이미지와 끝 프레임의 이미지를 입력으로 받아 그 사이 동작을 확산모델을 이용해 보간 이미지들을 생성해서 채우는 방식으로 수행됩니다. 고전적인 방식의 애니메이션들은 애니메이터(만화가?)들이 영상의 매 프레임을 이미지로 그리고 채색해서 이를 연속적으로 보여주는 방식을 취했었는데 ToonCrafter는 이런 반복적이고 손이 많이 가는 작업을 대체할 수 있는 단비같은 기술인 셈입니다. 만화 스케치에서의 프레임 보간 이미지 생성, 참조 스케치를 이용한 이미지 자동 채색 등의 기능도 함께 제공합니다. 공개된 생성 결과물들 가운데는 지브리 애니메이션을 가지고 만든 것이 많았는데 원본과 비슷하다고 느껴질 정도로 품질이 상..
LivePortrait는 정적인 초상화 이미지를 생동감 있게 움직이는 비디오로 변환하는 기술입니다. 실제 동영상들을 참고해서 얼굴 표정이나 머리 움직임 등을 추출하고 이를 제시된 정적 이미지에 적용하는 방식이죠. 6900만 개나 되는 많은 수의 고품질 프레임을 모델 학습에 이용하다 보니 다양한 상황들도 잘 지원한다고 합니다. 실시간 영상 변환이 되므로 이를 잘 활용하면 재미있는 콘텐츠나 실감 영상 혹은 화상회의 도구 등을 만들 수 있을 것 같습니다. 사용된 기술 요소로 Implicit Keypoints (얼굴의 특정 지점을 표시하는 간단한 점들로 얼굴 움직임을 효과적으로 제어할 때 사용), Stitching (이미지 간 매끄러운 연결을 통해 일관된 영상 생성에 사용), Retargeting(눈, 입 등의..
Mobile-Agent-V2는 알리바바 그룹이 공개한 모바일 기기 상에서 내비게이션과 실행의 개선을 돕는 작업 도우미 기술입니다. 모바일 기기에서 작업을 자동으로 처리하기 위해서는 사용자의 지시나 행동의 의도 등을 파악하고 기기 상에서 동작하는 다양한 기능들을 다룰 수 있도록 만드는 것이 필요한데, 이 목적으로 최근 에이전트 기술이 많이 연구되고 있습니다. 스마트폰에서의 자동화 처리를 위해 예전에는 단순한 룰 기반의 IFTTT(IF This Then That)라는 기술을 사용하기도 했습니다. IFTTT의 경우 단순하지만 광범위한 작업에 사용될 수 있었던 반면, Mobile-Agent-V2는 복잡한 작업과 다단계 작업을 효과적으로 처리할 수 있다는 장점이 있습니다. Mobile-Agent-V2에는 Plan..
VGGHeads는 3D 인간 머리 감지 및 메시 추정을 위한 대규모 합성 데이터셋과 이를 활용한 새로운 모델입니다. 기존 데이터셋은 편향, 개인 정보 보호 및 윤리적 문제로 인해 사용이 제한되고 대부분 데이터 수집 자체가 배우나 특별한 실험실 환경에서 만들어지는 경우가 많아 모델의 일반화가 어렵다는 문제가 있었습니다. VGGHeads는 이런 문제를 대규모 합성 데이터셋을 사용하고 다양한 장면과 포즈에서 적용할 수 있도록 새로운 모델 아키텍처를 도입함으로써 해결하고 있습니다. VGGHeads 모델의 특징으로는 다음과 같은 것이 있습니다.대규모 합성 데이터셋 사용 3D 인간 머리 감지 및 메시 추정을 위해 100만 개 이상의 이미지로 구성된 대규모 합성 데이터셋을 사용했습니다. 이 데이터셋은 라틴 확산 모..
헬스장 내 무인 편의점 등장AI와 로보틱스, 정보통신기술(ICT)의 발전으로 무인 점포 운영이 쉬워지면서, 헬스장 내부에 무인 편의점을 설치하는 '숍인숍' 경영이 주목받고 있습니다. 이 같은 무인 편의점은 인력과 운영 비용을 절감하며 효율적인 관리가 가능해졌습니다. 무인 매장 내에 또 다른 무인 매장을 설치하는 형태도 확산 중입니다. 이러한 방식은 ICT와 로보틱스 기술 덕분에 운영이 용이해지면서, 매출 확대와 공간 활용을 원하는 점주들에게 인기를 끌고 있습니다. (서울경제) AI 투자: 역효과의 가능성전미경영학회 연례회의에서 AI, 위기경영, 리더십이 주요 주제로 논의되었습니다. AI 투자에 있어서 과잉투자는 오히려 성과를 저해할 수 있다고 경고하며, 적절한 규제와 투자의 필요성을 강조했습니다. 특히 ..
생태,환경 영상+AI공모전 우승자는 AI 기반 작품 '플라스틱 프렌즈' 경기도가 개최한 '2024 경기도서관 생태·환경 영상+AI 공모전'에서 인공지능을 활용한 작품이 두각을 나타내며 수상작으로 선정되었습니다. 대상은 '플라스틱 프렌즈'라는 AI 기술 기반의 작품으로, 플라스틱 쓰레기와 살아가는 동물들의 슬픈 이야기를 독창적으로 표현하여 심사위원들로부터 높은 평가를 받았습니다. 일반 부문에서도 음식물 쓰레기 문제를 다룬 작품이 주목을 받았으며, AI의 창의적 접근이 예술 분야에 새로운 가능성을 열어주고 있다는 평이 이어졌습니다. 이 공모전은 AI가 영상 제작의 경계를 허물며 누구나 창작에 참여할 수 있는 기회를 확대하고 있음을 보여주었습니다.]기사링크 : 인더스트리뉴스키워드: 인공지능, 창작, 경기도 공..
유튜브를 보다 보면 자료나 테스트 데이터 용으로 영상 파일이나 오디오 파일을 다운받아야 할 때가 있습니다. 예를 들어 군중 영상이나 보행자 영상 등을 가지고 객체 감지나 움직임 트래킹을 하는 기능을 테스트 해야 하는 경우 등등이 있겠죠. 하지만 기본적으로 유튜브는 프리미엄 사용자가 아닐 경우, 영상의 다운로드 기능을 원칙적으로는 제공하지 않습니다.그래서, 이런 작업을 지원하는 도구를 사용하게 되는데 예전에는 youtube-dl 이라는 걸출한 커맨드 기반 도구가 있었습니다.하지만, 워낙 많이 알려지다보니 다운로드 방식이 차단되었고 이걸 다시 우회하는 yt-dlp라는 도구가 나왔습니다. 이 도구를 이용해 영상과 오디오 데이터를 다운로드 하는 방법을 기록해 둡니다. 도구 다운로드yt-dlp는 패키지 관리자..
우분투를 메인 운영체제로 사용하다 보면 문서 작성을 하고 싶을 때 불편함이 생깁니다.윈도우에서는 Ctrl+Shift+s 를 이용해서 특정 영역의 캡처를 쉽게 해 왔기 때문이죠. 물론 윈도우 10, 11에서 기능이 향상되기 전까지는 별도의 도구인 PicPick을 사용해야 했습니다만... 여튼 윈도우가 아닌 우분투를 사용하게 되면서 같은 방식으로 처리할 수 있도록 하고 싶었습니다. 그래서 찾아본 것이 'shutter'라는 도구였고 이걸 단축키를 등록해서 사용하도록 했는데 그 절차를 기록해 둡니다. 설정 과정 1.shutter 설치$ sudo apt install shutter 2.우분투 키보드 설정 창에서 맨 아래로 가서 커스텀하게 추가/변경 참고) 나중에는 윈도우와 동일하게 만들기 위해 바로가기 값을 ..
PC에 내장 GPU (Intel Internal)과 외장 GPU (NVIDIA) 이렇게 둘 다 있는 경우, 우분투 기본 윈도우 화면 지원은 Intel 내장 GPU를 사용하고, 외장 GPU는 딥러닝 전용으로 사용하는 방법을 알아봅니다. 이렇게 하는 것은 저렴한 GPU를 사용할 경우, GPU 메모리 자체가 작기 때문에, GUI 처리를 위해 사용되는 것을 최소화하는 것이 필요하기 때문입니다. 인터넷으로 찾아본 것과 ChatGPT에게 물어봐서 답변 받은 것 2가지를 각각 기록해 둡니다.예전 조사 당시의 기억으론 둘 다 작동했던 것 같은데... 흠... 1.xorg.conf 변경 방식# /etc/X11/xorg.conf 파일 생성 - 우분투는 기본은 생성되지 않음$ sudo nvidia-xconfig $..