일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- LORA
- AI 기술
- OpenAI
- AI
- 가상환경
- ControlNet
- tts
- 확산 모델
- 일론 머스크
- 딥마인드
- 서보모터
- 오픈AI
- ubuntu
- 우분투
- 메타
- TRANSFORMER
- 시간적 일관성
- 티스토리챌린지
- 아두이노
- 멀티모달
- 인공지능
- 뉴럴링크
- PYTHON
- LLM
- 트랜스포머
- 오블완
- 이미지 편집
- 생성형 AI
- javascript
- ChatGPT
- Today
- Total
목록2024/10 (83)
AI 탐구노트
F5-TTS는 빠르고 자연스러운 음성을 만들어 내는 텍스트-음성 변환 (TTS) 모델입니다. 이를 위해 흐름 매칭을 기반으로 빠르고 정확한 비자기회귀 방식을 적용하고 있습니다. 기존의 TTS(텍스트-음성 변환) 모델들은 텍스트와 음성을 연결하기 위해 발음의 길이(지속 시간)를 예측하거나, 음소(소리의 기본 단위)를 하나하나 정렬하는 복잡한 과정이 필요했고, 이런 과정들은 모델을 느리게 만들고, 오류가 발생할 가능성도 높였습니다. F5-TTS 이전에 공개된 E2-TTS 모델의 경우, 복잡한 구조를 없애고 단순한 설계를 적용했지만, 텍스트와 음성을 정확하게 맞추지 못해 음성 품질이 떨어지는 문제가 있었습니다. F5-TTS는 ConvNeXt라는 기술을 사용해 텍스트와 음성을 더 쉽게 맞추고, 새로운 샘플링..
지난 번에 ComfyUI를 설치해서 Flux.1 Schnell을 돌려봤습니다. Flux.1 설치 및 테스트이미지 생성 모델하면 떠 오르는 것들이 있을 겁니다. 최근에는 워낙 많이 생겨서 다 나열하기 힘들지만 그래도 떠오르는 이름 말입니다. Stable Diffusion, DALL-E, MidJourney, Flux.1 그 가운데 하나가 B42morrow.tistory.com 그러다보니 ComfyUI라는 것을 어떻게 써먹을 수 있는지 좀 더 알아봐야겠다는 생각이 들었습니다. 검색을 해 보니 Stable Diffusion과 같이 공개 모델을 이용하는 사람들 가운데 LoRA를 적용해서 개인적으로 사용하는 분들이 많다는 것을 알게 됐고, ComfyUI에도 이것을 활용할 수 있다고 합니다. 그래서, 이번 시간..
Gradio란 Gradio는 머신러닝 모델을 손쉽게 웹 인터페이스로 배포할 수 있는 Python 라이브러리입니다. 복잡한 코드나 환경 구성 없이 손쉽게 몇 안 되는 코드만으로 웹 브라우저에서 다양한 기능을 구현하고 테스트할 수 있죠. 최근까지 많은 업그레이드가 진행되면서 이미지, 텍스트, 오디오, 비디오 등의 입력 타입을 지원해 주고 있습니다. Gradio 5에서 WebRTC 지원 그런데, 사용하면서 느꼈던 아쉬운 것은 완전 실시간 영상 처리는 어렵다는 것이었습니다. 그랬는데... Gradio 5가 나오면서 이 문제가 해결되었습니다. 다음은 Gradio 5를 소개하는 페이지에서 나오는 내용입니다. “I can’t build realtime apps in Gradio” → We have unlocked..
문제 Anaconda를 이용할 경우, 처음 env (가상환경)을 생성할 때 사용할 python의 버전을 다음과 같이 지정하게 되어 있습니다. $ conda create -n python= 그런데 처음에 환경을 만들 때는 Python 3.9가 필요한 줄 알았는데, 가상환경 내에서 설치할 패키지가 더 높은 python 버전을 요구하는 경우가 생기면 난감해집니다. 예를 들어 Yolov10 github에 가면 python 3.9로 requirements가 되어 있는데 최근 제가 테스트한 gradio-webrtc의 경우는 3.10이 최소 요구사항입니다. $ pip install gradio-webrtc ERROR: Ignored the following versions that require a differe..
이전 작업 정리지난 1편에서는 우분투와 아두이노를 연결하고 서보모터를 컨트롤하는 것까지 해 봤습니다. Headshot Tracking 따라해 보기 - 1편재미난 것 발견! 작년 쯤에 유튜브를 보다가 재미난 장난감을 만든 분의 영상을 발견했습니다. 서보모터를 이용해 Pan-Tilt를 할 수 있는 장비를 만들고 (실제 알리에서 판매하고 있음),카메42morrow.tistory.com 그리고 최근 표준형 서보모터(180도)가 알리에서 도착했고 그것의 동작도 확인했었죠. 서보모터 (SG90 스탠다드) 테스트예전 글에서 Head Tracking 하는 테스트를 하던 중 가지고 있던 서보모터가 연속형(360도)이라 각도 조절이 어려웠다는 얘기를 한 적이 있습니다. Headshot Tracking 따라해 보기 ..
예전 글에서 Head Tracking 하는 테스트를 하던 중 가지고 있던 서보모터가 연속형(360도)이라 각도 조절이 어려웠다는 얘기를 한 적이 있습니다. Headshot Tracking 따라해 보기 - 1편재미난 것 발견! 작년 쯤에 유튜브를 보다가 재미난 장난감을 만든 분의 영상을 발견했습니다. 서보모터를 이용해 Pan-Tilt를 할 수 있는 장비를 만들고 (실제 알리에서 판매하고 있음),카메42morrow.tistory.com 최고 속도로 회전을 하는데 움직인 시간을 조절해서 각도를 조절해야 하다보니 원하는 각도를 정확히 맞추는 것이 어려웠습니다. 할 때마다 미묘하게 차이가 발생했었는데 이게 계속 누적이 되다보면 원치않은 위치에 가 있는 것을 확인할 수 있거든요. 연속형(360도)에서는 전..
어제 밤에 일론 머스크의 SpaceX에서 스타쉽 5차 발사를 했습니다. 발사 장면을 보다가 믿기지 않는 장면이 나와서 소식을 공유하고 싶어 글을 써 봅니다. 요약하면 1단 부스터는 로봇팔 같은 발사대에 잡혀 안전하게 착륙했고, 스타십 우주선은 원래 목표로 한 인도양 착륙지점에 정확하게 착륙했습니다. 발사대의 젓가락 모양 팔('메카질라'라고도 불림)이 1단 추진체인 '슈퍼 헤비' 부스터를 잡아내는 장면은 정말 영화의 한 장면 같습니다. 어떻게 이런 것이 가능할까? 부스터의 크기가 높이 71m, 중량이 367.5만 kg 이라는데... 그것도 자유낙하하다가 부스터로 자세 제어를 해야하는 아주아주 어려운 조건일텐데 그걸 정확히 잡아낸다는 것은 정말 믿기지 않았습니다. 하지만 1회 성공이 아닌 앞으로 계속 이렇..
보험사, AI 도입으로 보험금 지급 속도 개선 최근 보험업계에서는 AI 기반 보험심사, 고객 맞춤형 보험 상품, 서비스 제공, 보험 사기 탐지 시스템 등 AI기술 도입이 급속히 진행되면서, 보험금 지급 속도가 빨라지는 등 고객 서비스가 크게 개선과 함께 보험사들의 비용 절감과 업무 생산성이 향상되고 있습니다. (머니S) 인공지능, 뇌졸중 예후 예측에서 석학들보다 빠르고 정확"세계 뇌졸중 전문가들과 AI가 뇌졸중 환자의 예후를 예측하는 대결을 펼쳤는데 이 대결에서 인공지능은 예측시간 12분 vs 45분, 예측정확도 72% vs 50%로 전문가들을 훨씬 웃돌았습니다. (YTN) AI 기술, 에너지 효율 최적화로 비용 절감 가속포스코는 '스마트 용광로' 도입으로 생산량이 증가하고 연료비가 절감하는 등, A..
NotebookLM은 구글에서 공개한 AI 기반 정보탐색, 노트 필기 및 연구 지원 도구입니다. 개인 노트와 문서에 대한 상호작용을 향상시키기 위해 개발된 실험적인 AI 도구로 개인이 자신의 자료를 업로드하면 그 내용을 기반으로 요약, 질문, 응답, 개념 추출 등 다양한 작업을 도와줍니다. LLM + RAG + Chat 서비스 같은 것이라 볼 수 있는데, 이것만 보면 ChatGPT 등을 통해서 할 수 있는 것과 어떤 차이가 있냐고 하실 수도 있겠습니다. NotebookLM과 ChatGPT 서비스는 둘 다 LLM 기반이긴 하지만, 사용자 데이터를 다루는 방식과 초점이 다릅니다.NotebookLM의 경우, 제공된 정보 기반으로 정확한 정보 추출과 질의, 응답에 특화된다고 할 수 있는데 반해 ChatGPT는 ..
8월 8일 행사 원래 행사 예정일은 8월 8일이었습니다. 당시 발표 날짜를 두고 8이라는 숫자를 중국 사람들이 좋아하는데 그게 겹치는 날짜이니 중국에서 자율주행 관련 공개 행사를 하지 않겠냐는 얘기가 있었죠. 날짜 공개 즈음에 중국에서 테슬라의 주행 데이터 수집을 허용하는 조치를 취한 탓에 사람들은 그렇겠거니 하면서 생각하고 있었습니다. 그러던 것이 7월 말, 공개 일정을 2개월 연기한다는 발표가 나왔고 날짜는 10월 10일로 확정되었습니다. 10월 10일 행사2개월이 추가로 연장된 이후에 공개되는 것이라 한 쪽에서는 문제가 있는거 아닌가 하는 의구심이었고, 또 다른 한 쪽에서는 더 큰 임팩트를 주기 위한 연기인가 하는 기대를 가지게 됐습니다. 드디어, 한국 시간으로 오늘 오전 11시. 'We, R..