일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 오블완
- 이미지 생성
- 일론 머스크
- 휴머노이드 로봇
- 강화 학습
- 우분투
- 다국어 지원
- 오픈AI
- 아두이노
- 티스토리챌린지
- ubuntu
- AI
- 오픈소스
- 시간적 일관성
- 딥러닝
- ChatGPT
- 실시간 렌더링
- TRANSFORMER
- 인공지능
- PYTHON
- OpenCV
- 생성형 AI
- LLM
- 트랜스포머
- OpenAI
- LORA
- 메타
- tts
- 확산 모델
- AI 기술
- Today
- Total
목록딥러닝 (12)
AI 탐구노트

요즘 날씨가 점점 극단적으로 변하면서 갑작스런 폭우나 가뭄 같은 문제가 자주 생기고 있습니다. 이런 기후 문제에 잘 대응하려면 강이나 하천의 물 흐름을 빠르게 파악하고 관리하는 기술이 꼭 필요합니다. 그중에서도 '물 위를 흐르는 속도'를 알 수 있는 기술은 특히 중요하죠. 왜냐하면 홍수가 얼마나 빠르게 올지 예측하거나, 하천이 침식되는 걸 막는 데 큰 도움이 되기 때문입니다. 지금까지는 센서를 물에 직접 넣거나 장비를 띄워서 속도를 측정하는 방식이 대부분이었는데, 이건 비용도 많이 들고 측정할 때 위험하기도 합니다. 그래서 요즘엔 '카메라로 찍은 영상'을 분석해서 물의 흐름 속도를 알아내는 기술들이 등장했습니다. RivVideoFlow는 이런 영상 기반 기술 중 하나인데, 복잡한 설정 없이도 빠르고 정..

우리가 사는 세상을 컴퓨터 속에서 그대로 재현하는 기술은 자율주행차, 게임, 로봇 등 다양한 분야에서 꼭 필요합니다. 이때 가장 많이 쓰이는 방법 중 하나가 ‘여러 장의 사진’을 이용해 실제 공간의 모양을 3D로 복원하는 기술입니다. 하지만 이 방식은 계산이 복잡하고, 비슷한 각도에서 찍은 사진이 많아야 잘 작동합니다. 그런데 최근에는 한 장의 사진만으로도 그 안에 담긴 거리(깊이)를 알아내는 '단안 깊이 추정(Monocular Depth Estimation)' 기술이 빠르게 발전하고 있죠. 여기에 'Diffusion Model'이라는 똑똑한 인공지능이 등장하면서, 한 장의 사진만으로도 꽤 정확한 3D 정보를 만들어낼 수 있게 되었습니다. 이러한 최신 기술들을 조합해서 만든 새로운 방법이 'Murre'입..

음악 생성 기술은 최근 몇 년간 급격한 발전을 이루었으며, 인공지능(AI) 기반의 음악 생성 모델들은 새로운 창작 방식의 가능성을 열어가고 있습니다. 기존의 음악 생성 시스템은 보컬과 반주 트랙을 개별적으로 생성하거나, 다단계의 복잡한 아키텍처를 거쳐야만 고품질의 음악을 만들 수 있었으나 이러한 방식은 확장성이 부족하고, 짧은 음악 조각만을 생성하는 경우가 많아 실질적인 음악 창작 도구로 사용하기에는 한계가 존재했죠. 특히, 최근까지 대부분의 음악 생성 모델들은 자연어 처리에서 사용되는 언어 모델(Language Model) 기반의 접근 방식을 차용해 왔습니다. 하지만 이러한 모델들은 연산 비용이 높고, 추론 속도가 느려 실시간 응용에는 적합하지 않았고 이에 따라 빠르고 간결하면서도 고품질의 곡을 생성할..

얼굴 복원(Face Restoration, FR) 기술의 등장디지털 이미지 및 비디오 처리 기술은 현대 사회에서 중요한 역할을 하고 있으며, 특히 얼굴 복원(Face Restoration, FR)은 저해상도 혹은 손상된 얼굴 영상을 고품질로 복원하는 기술로 주목받고 있습니다. 기존 얼굴 복원 기술의 제약사항기존의 얼굴 복원 기술은 정지 이미지에 초점을 맞춰왔지만, 비디오 얼굴 복원(Video Face Restoration, VFR) 분야는 아직 많은 도전 과제를 안고 있습니다. 특히, 시간적 일관성 유지, 움직임에 따른 왜곡, 고품질 학습 데이터 부족 등의 문제가 해결되지 않았습니다.시간적 일관성 부족기존의 비디오 얼굴 복원 모델은 개별 프레임을 독립적으로 처리하는 경우가 많아, 영상에서 얼굴이 흔들리거..

우리 주변에서 AI 기술은 빠르게 발전하며 일상에 큰 변화를 주고 있습니다. 립싱크 기술은 그 가운데 하나죠. 이 기술은 음성에 맞춰 사람의 입모양을 자연스럽게 만들어주는 것을 목표로 하며, 영화 더빙, 가상 캐릭터 제작, 화상회의 같은 여러 분야에서 유용하게 사용되고 있습니다. 최근에는 방문객들을 맞이하는 키오스크의 인간형 아바타에 이 기술이 접목되고 있습니다. 아무래도 말과 영상 속의 입모양이 다르면 사용자들은 '불편한 골짜기'를 경험할 수 밖에 없기 때문이죠. 지금까지의 립싱크 기술에는 몇 가지 한계가 있었습니다. 예를 들어, 기존에 주로 사용되던 AI 기술(GAN 기반 기술)은 훈련이 불안정하거나, 새로운 환경에서 잘 작동하지 않는 경우가 많았습니다. 또한, 최신 기술 중 일부는 입모양은 잘 맞췄..

흡연의 문제점, 이제는 전 세계적인 추세어린이집, 공공 실내 공간, 공원 등 금연구역으로 지정된 곳에서 흡연은 여전히 문제가 되고 있습니다. 특히 어린이나 취약계층이 주로 이용하는 공간에서의 흡연은 큰 문제가 되고 있습니다. 실제로는 먹고 자고 하는 주택, 아파트 단지 등에서도 늘상 겪게 되는 것이 흡연과 관련된 갈등이죠. 해외의 경우, 최근 흡연과 관련해서는 영국과 이탈리아 밀라노의 전향적인 정책이 눈에 띕니다. 작년 4월에 영국에서는 2009년 생 이후 세대는 평생 담배를 살 수 없도록 하는 법안('담배와 전자담배법안')이 법안 심사의 첫 단계를 통과 되었습니다. (기사) 이 법안은 추가적으로 학교, 병원, 놀이터 등 특정 실외 공간같은 곳에서의 흡연도 금지하며 전자담배광고, 스폰서도 금지됩니다. ..

1. 서론화재는 언제, 어디서나 예기치 못한 상황에서 발생하며 인명과 재산에 치명적인 피해를 가져올 수 있습니다. e-나라지표 사이트의 화재발생 현황 자료를 보면, 2023년 한국에서 발생한 화재 건수는 약 3.9만 건으로, 이는 하루 평균 106건 가량의 화재가 발생했다는 의미입니다. 코로나 때문에 위축되었던 2020~2021년을 제외하면 그 이전인 2014~2017년 대비하면 화재 발생 수는 급증한 셈입니다. 해외에서도 이러한 추세는 유사합니다. 미국 소방청(NFPA)의 최근 보고서(2023년 기준)에 따르면, 연간 약 36만 건 이상의 화재가 발생해 수천 명의 인명 피해가 보고되고 있습니다. 이는 산업화, 도시화가 진행될수록 화재 발생 위험이 상대적으로 높아진다는 점을 다시 한번 확인시켜줍니다..

1. 서론 무인매장은 소비자들에게 간편한 쇼핑 경험을 제공하며 빠르게 확대되고 있습니다. 특히 팬데믹 이후 비대면 소비 문화가 자리 잡으면서, 다양한 산업 분야에서 무인화가 필수적인 트렌드로 자리 잡았습니다. 하지만 이러한 혁신적인 매장 운영 방식은 새로운 과제도 함께 던져 주었습니다. '도난 방지'가 그 대표적인 예입니다. 사람이 매장에 상주하지 않다 보니, 도난 상황을 즉시 감지하거나 대처하기 어려운 환경이 된 것입니다. 이러한 문제를 해결하기 위해 인공지능(AI) 기술의 활용이 시도되고 있습니다. Vision 기술과 딥러닝 알고리즘은 물체와 사람의 동작을 인식하고, 절도 상황을 판단하는데 적용되고 있는 것이죠. 하지만 아시다시피 사람의 동작은 무척이나 다양하고 복잡합니다. 단순히 물체를 집는 동작..

음악은 인간 감성의 언어로, 수천 년 동안 문화를 형성하고 우리 삶을 풍요롭게 해왔습니다. 현대의 기술 발전은 단순히 음악을 듣는 것을 넘어, 음악의 구조를 이해하고 시각적으로 표현하는 데까지 이르고 있습니다. 예를 들어, 스마트폰을 통해 간단히 멜로디를 검색하거나, 피아노 앱에서 연주 실력을 평가받는 것처럼, 기술은 점차 음악의 언어를 해석하고 번역하는 방향으로 발전하고 있습니다. 이제는 한 걸음 더 나아가, 특정 소리나 음악을 실시간으로 듣고 이를 정확한 악보로 전사하는 기술이 주목받고 있습니다. 이는 단순한 편리함을 넘어, 교육, 창작, 보존 등의 영역에서 새로운 가능성을 열어줍니다. 이 글에서는 음악을 악보로 전사하는 기술이 가진 잠재력과 이를 실현하기 위한 접근법을 살펴봅니다.1.악보 제작 기술..

딥러닝 모델의 가중치 파일은 프레임워크나 용도에 맞춰 최적화되어 있습니다. 주요 가중치 파일의 형식과 특징을 정리해 보고 가겠습니다. HDF5 (.h5, .hdf5)Hierachical Data Format의 약자, 대용량 데이터 저장에 적합모델의 구조와 가중치를 동시에 저장Keras, Tensorflow에서 사용 PyTorch (.pt, .pth)Pytorch에서 사용모델의 상태(dict 형태)를 저장가중치와 옵티마이저 상태 정보를 포함할 수 있음 TensorFlow SavedModel:Tensorflow에서 사용모델의 가중치, 구조, 서명, 메타데이터 포함디렉토리 구조로 저장되며 saved_model.pb 파일과 가중치 파일들이 함께 저장됨Tensorflow Serving, Tensorflow L..