일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AI
- AI 기술
- 티스토리챌린지
- 인공지능
- 휴머노이드 로봇
- 오픈AI
- tts
- 멀티모달
- TRANSFORMER
- 일론 머스크
- LLM
- 딥러닝
- 아두이노
- ubuntu
- 생성형 AI
- 시간적 일관성
- LORA
- 우분투
- 트랜스포머
- 메타
- PYTHON
- ControlNet
- OpenAI
- ChatGPT
- 오블완
- 확산 모델
- 서보모터
- 딥마인드
- 뉴럴링크
- 가상환경
- Today
- Total
목록전체 글 (398)
AI 탐구노트
1. 서론 얼굴 검출은 이미지를 분석하여 사람의 얼굴을 정확히 식별하고 그 위치를 파악하는 기술로, 컴퓨터 비전 분야에서 중요한 역할을 담당합니다. 이는 얼굴 인식, 감정 분석, 사용자 인증 등 다양한 응용 분야에 필수적인 기초 기술로 자리 잡았습니다. 최근까지 CNN(Convolutional Neural Networks)은 지역적 특징을 효과적으로 학습하는 특성을 통해 높은 성능을 발휘하며 얼굴 검출에서 주요 기술로 사용되어 왔습니다. 그러나 CNN 기반 모델은 고정된 크기의 수용 영역(receptive field)으로 인해 가려짐, 흐림, 다양한 얼굴 각도와 같은 복잡한 조건에서 한계를 드러냅니다. Transformer 모델은 전역적 관계를 학습하는 데 뛰어난 성능을 보이며 NLP를 넘어 컴퓨터 비전..
1.서론 : 폭력 상황에도 '골든타임'이 있다요즘 뉴스에서는 조직 폭력, 학교 폭력, 직장 내 폭력 등등 다양한 폭력 사건이 자주 보도됩니다. 실제로도 학교, 경기장, 심지어 일상적인 거리에서도 예기치 않은 폭행이 발생하고 있죠. 이런 사건을 막기 위해 기술은 어떻게 발전하고 있을까요? 오늘은 폭행 감지와 신속한 대처가 시민의 안전을 어떻게 보장하는지, 그리고 그 중심에 있는 지능형 CCTV에 대해 짧막하게 이야기해 보겠습니다. 폭력의 확산, 초기 대응의 필요성 폭력은 단순히 개인 간의 문제로 끝나지 않습니다. 감정적인 상승작용으로 인해 처음에는 작은 다툼이더라도 주변으로 퍼지며 심각한 폭력으로 이어지기 쉽습니다. 특히 다수가 밀집한 장소에서는 작은 충돌이 대규모 사건으로 번질 가능성이 높습니다. 따..
1.서론 : 효율성 높은 교통정보 수집 방법 (기존 CCTV 활용, 영상분석) 날씨가 제법 쌀쌀해졌습니다. 며칠 전만 해도 아... 내가 좋아하는 가을이 조금만 더 머물러 줬으면 하는 생각이었는데, 어제부터 갑자기 쌀쌀해지더니 오늘 아침 기온이 드디어 영하로 떨어졌습니다. 겨울이 다가와 도로 사정도 달라지는 이 시기면, 늘상 뉴스에 많이 오르내리는 단어가 있죠. '블랙아이스'... 도로 표면에 서리 등이 얼어붙어 만들어진 얼음을 말하는데, 이 때문에 차가 운행 중에 미끄러져 사고가 나는 일이 빈번하기 때문입니다. 완벽하진 못하지만, 그나마 할 수 있는 대응은 평소에 타이어 관리를 잘 하고 운전할 때 속도를 과하게 내지 않고 앞 차와는 충분한 거리를 두는 것 등의 기초적인 교통 준칙을 따르는 것이겠습니다...
1. 서론디지털 이미지 편집은 현대의 다양한 산업에서 필수적인 기술로 자리 잡았습니다. 하지만 세밀하고 정밀한 편집 작업은 여전히 고도의 전문성이 요구되며, 대부분의 사용자는 이 과정에서 직관적이지 않은 인터페이스와 복잡한 도구 사용의 어려움을 겪게 됩니다. 그러던 중에 생성형 AI의 등장은 기반의 이미지 생성 및 편집의 자동화에 혁신적인 변화를 가져왔습니다. 특히, Diffusion 모델과 다중모달 대규모 언어모델(MLLM)의 결합은 사용자 경험을 향상시키는 핵심적인 도구가 되고 있습니다. MagicQuill은 이러한 기술적 흐름 속에서 탄생한 혁신적인 이미지 편집 시스템입니다. 사용자는 단순한 브러시 스트로크만으로도 복잡한 편집을 수행할 수 있으며, 시스템은 사용자 의도를 실시간으로 분석하고 이에 ..
1.서론디지털 콘텐츠 제작과 편집 기술의 발전으로 인해 이미지 편집 기술은 점점 더 중요해지고 있습니다. 특히, 텍스트 설명을 바탕으로 이미지에 객체를 삽입하는 기술은 컴퓨터 그래픽스, 자율주행 훈련 데이터 생성 등 다양한 산업 분야에서 활용 가능성이 높습니다. 그러나 이러한 작업은 단순히 객체를 추가하는 것 이상의 복잡성을 가집니다. 원본 이미지의 구조와 질감을 유지하면서도 자연스러운 위치에 객체를 배치하는 것이 관건입니다. 기존의 텍스트-이미지 확산 모델은 뛰어난 생성 능력을 보여주지만, 객체 삽입과 같은 특정 편집 작업에서는 여전히 한계가 있습니다. 이에 대한 해결책으로 NVIDIA와 텔아비브 대학교 연구팀은 훈련 없이 객체 삽입이 가능한 ADD-IT 모델을 제안했습니다. 이 기술은 사전 학습된 확..
사라져가는 마을, 다시 살아나는 희망 한때 아이들의 웃음소리와 풍성한 수확의 기쁨으로 가득했던 농촌 마을들이 이제는 적막 속에 사라지고 있습니다. 청년들은 도시로 떠나고, 남겨진 건 점점 더 깊어지는 노령화와 빈집들뿐입니다. '인구소멸지역'이라는 단어는 우리에게 어느덧 익숙한 현실이 되었죠. 이렇게 폐허가 집들이 우후죽순처럼 널려 있는데 마을의 모습은 우리에게 무엇을 말하고 있을까요? 정부는 이 문제를 해결하기 위해 여러 가지 정책을 내놓고 있습니다. 그러나 많은 경우, 이러한 정책들은 지역의 특성을 고려하지 못한 채 겉모습만 화려한 개발 사업으로 끝나곤 합니다. 잘못된 개발로 인해 오히려 주민들이 터전을 잃거나, 젠트리피케이션으로 마을이 본래의 모습을 잃는 일도 빈번합니다. 이렇게 되면 정책이 의도했던..
1. 서론 디지털 콘텐츠 제작의 발전은 오늘날 영화, 광고, 게임 등 다양한 분야에서 영상의 중요성을 크게 증대시켰습니다. 특히, 카메라 움직임과 같은 요소는 시청자의 몰입도를 높이는 데 중요한 역할을 합니다. 그러나 기존의 영상 제작 방식에서는 사용자가 원하는 카메라 움직임을 자유롭게 구현하기 어려운 한계가 있습니다. 이를 극복하기 위해 생성적 인공지능 기술이 도입되면서 사용자의 요구에 맞춘 영상 편집이 가능해졌습니다. 최근에는 사용자 제공 영상에서 새로운 시각적 효과를 생성하는 연구가 주목받고 있습니다. 하지만, 이 과정에서 기존 영상에 없는 새로운 시점을 생성하는 일은 기술적 도전 과제를 안고 있습니다. 이러한 문제를 해결하기 위해, Google과 싱가포르국립대학교의 연구팀은 ReCapture라는 ..
1. 서론음악 제작에서 드럼 비트는 중요한 역할을 하며, 그 복잡성은 상당합니다. 드럼 비트를 생성하는 과정은 일반적으로 고도의 기술과 시간이 요구됩니다. 이 과정에서 비전문가와 전문가 모두에게 유용한 새로운 도구가 등장하고 있습니다. 최근 인공지능은 드럼 비트 생성에서 중요한 역할을 하고 있으며, 특히 제스처 기반의 리듬 표현을 활용해 이를 자동으로 변환하는 기술이 주목받고 있습니다. 본 글에서는 TRIA(The Rhythm In Anything)라는 시스템을 소개합니다. TRIA는 다양한 비드럼 음원을 드럼 비트로 변환하는 혁신적인 방법을 제시하며, 이를 통해 사용자는 리듬과 소닉 팔레트(*)를 간단히 제공하여 고품질의 드럼 비트를 생성할 수 있습니다. 이 기술은 음악 제작 과정을 단순화하며, 창의적..
1. 서론 : 문화생활에 대한 갈망 인류의 예술적 유산은 시대를 초월한 가치를 지니고 있습니다. 하지만 많은 사람들은 이러한 명작들을 직접 경험할 기회를 가지기 힘듭니다. 세계적인 명화나 조각품, 건축물은 특정 국가나 지역의 박물관, 갤러리에 보관되어 있어 물리적 거리와 그로 인한 비용이 장벽이 되기 때문입니다. 여유가 좀 있으신 분들께는 해당되지 않겠네요. 하긴 금전적인 여유가 많지 않더라도 세계 여러 곳을 다니면서 여행 영상을 만들어 수익을 얻는 크리에이터 분들도 많이 생겼으니 마음 먹기 달렸다고 하는게 낫겠습니다. 이런 상황에서 온라인 박물관과 갤러리가 새로운 방식으로 사람들을 예술 세계로 초대하고 있습니다. 특히 코로나19 팬데믹 이후 디지털 전환이 가속화되면서 이러한 서비스는 더 큰 주목을 ..
1. 서론현대 사회에서 실시간 음성 인식 기술은 빠르게 발전하고 있으며, 발표 중 실시간 자막 제공, 청각 장애인을 위한 접근성 도구, 스마트 기기 및 웨어러블의 음성 명령 처리 등 다양한 영역에서 필수적입니다. 그러나 이러한 기술이 저비용 하드웨어에서 원활히 작동하려면 높은 정확성과 낮은 지연 시간이 필요합니다. 특히, 인터넷 연결 없이 동작하는 장치에서는 연산 자원의 한계로 인해 더욱 도전적입니다. 최근 OpenAI의 Whisper는 일반적인 음성 인식 정확도를 크게 향상시켰으나, 고정된 길이의 입력을 요구하여 저지연 환경에서는 한계가 있었습니다. 이에 대한 해결책으로 소개된 Moonshine은 Whisper의 장점을 유지하면서도 실시간 처리에 최적화된 모델입니다. 이 글에서는 Moonshine의 구..