일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 메타
- 오블완
- 멀티모달
- 이미지 편집
- 오픈AI
- 인공지능
- 확산 모델
- 시간적 일관성
- TRANSFORMER
- OpenAI
- javascript
- LORA
- AI
- 우분투
- 티스토리챌린지
- 아두이노
- 일론 머스크
- ChatGPT
- 트랜스포머
- 딥마인드
- tts
- 가상환경
- ubuntu
- 서보모터
- LLM
- ControlNet
- 생성형 AI
- PYTHON
- 뉴럴링크
- AI 기술
- Today
- Total
목록2024/10 (83)
AI 탐구노트
Github repository에 올라온 코드들을 테스트할 때 보면, Python 패키지 설치 방법이 다양한 것을 알 수 있습니다. 그래서, 어떤 종류가 있고 어떻게 다른가를 조사해 봤습니다. Python 패키지 설치 방식 별 간략 특징 주로 많이 사용하는 방식은 대략 아래와 같이 3가지 정도 되는 것 같습니다. 그 가운데 저도 가장 익숙한 것이 requirements.txt 파일로 하는 방식이고 나머지 최근 방식이 현재 디렉토리 내 패키지 설치 방식인 것 같습니다. 각자가 익숙하고 편한 방법을 택하면 될 것 같고 github repository의 경우에도 개발자가 자신의 방식대로 설정해 뒀을 겁니다. pip install .현재 디렉토리에 있는 패키지 설치 setup.py 파일이나 pyproj..
Voice-Pro는 AI 기반 음성 인식, 번역, 자막 생성, 보컬 제거 등을 통합 제공하는 그라디오 웹 UI 솔루션입니다. Voice-Pro가 제공하는 주요 기능은 다음과 같습니다. YouTube 동영상 다운로드 및 오디오 변환보컬 제거 및 잡음 제거다국어 자막 생성 및 번역 (100개 이상의 언어 지원)음성 합성(TTS) 기능으로 다국어 음성 생성실시간 음성 인식 및 번역배치 처리를 통해 대용량 파일 처리사용자 맞춤형 TTS 속도, 음량, 음정 조절MIT 라이선스 위에 소개한 기능들을 보면 오디오, 특히 음성 오디오 처리에서 꼭 필요하다 싶은 것들을 다 나열하고 있는 것 같습니다. 어떻게 이런 기능들을 다 구현했을까 의아했는데 뒤에 설명된 내용을 보고 고개를 끄덕일 수 있었습니다. 이미 있는..
gradio-client-lite란 gradio-client-lite는 다른 패키지나 플랫폼에 대한 의존성이 전혀 없는 경량 Gradio 클라이언트입니다. 공개된 페이지 상의 특징을 보면 다음과 같습니다. 다른 패키지 의존성 없음플랫폼 독립적임서버리스 플랫폼에서도 작동 복제 친화 매커니즘(Replica affinity mechanism)Typescript로 개발 주) 1.언급된 복제 친화 매커니즘은 Gradio 앱을 쉽게 복제하고 배포할 수 있도록 하는 기능으로 보입니다. 동일한 Gradio 인터페이스 유지하면서 여러 환경에서 앱 실행 가능하게 하는거죠.2.서버리스 플랫폼에서 작동이라고 되어 있는데, 서버 자체 관리를 불필요하나 Node.js 같은 런타임 환경은 필요합니다. 참고) Node.J..
Invoke는 Invoke AI에서 개발한 전문 크리에이터를 위한 AI 편집 도구입니다. 이미지 생성 및 편집 전문 도구 컨텐츠를 만들기 위해 이미지가 필요할 때가 있습니다.이 경우, Unsplash, Pixabay, Freepik 등과 같이 이미지 제공 사이트를 이용하거나 하죠.최근에는 생성형 AI의 등장으로 자신이 원하는 이미지를 직접 생성하는 것이 추세가 되고 있습니다. MidJourney, Stable Diffusion 등 다양한 서비스가 있는데요... 그런 AI를 이용해서 이미지를 생성하고 나서도 완전히 자기 입맛에 맞는 이미지를 구하기는 힘듭니다.그래서, 다시 편집 전문 도구를 이용해서 부분을 잘라내고 바꾸고 하는 작업들을 하게 되죠.돌고 돌아 다시 Adobe의 제품으로 갑니다.Adobe는 ..
딥러닝 모델의 가중치 파일은 프레임워크나 용도에 맞춰 최적화되어 있습니다. 주요 가중치 파일의 형식과 특징을 정리해 보고 가겠습니다. HDF5 (.h5, .hdf5)Hierachical Data Format의 약자, 대용량 데이터 저장에 적합모델의 구조와 가중치를 동시에 저장Keras, Tensorflow에서 사용 PyTorch (.pt, .pth)Pytorch에서 사용모델의 상태(dict 형태)를 저장가중치와 옵티마이저 상태 정보를 포함할 수 있음 TensorFlow SavedModel:Tensorflow에서 사용모델의 가중치, 구조, 서명, 메타데이터 포함디렉토리 구조로 저장되며 saved_model.pb 파일과 가중치 파일들이 함께 저장됨Tensorflow Serving, Tensorflow L..
얼마 전 Crawling을 전문으로 하는 FireCrawl이라는 솔루션을 소개한 바 있습니다. Firecrawl : 웹사이트 데이터 크롤링 API 서비스URL 내용을 크롤링해서 LLM을 위한 마크다운 또는 구조화된 데이터로 변환하는 API 서비스 Firecrawl은 웹 사이트 URL 상의 내용을 크롤링해서 정돈된 마크다운 형태나 LLM에 적합한 구조화된 데이터42morrow.tistory.com 그랬는데 바로 또 다른 Crawler를 알게 되어 간단한 소개와 실행 테스트를 진행해 봅니다. Crawl4AI는 비동기 아키텍처를 채용해 웹 데이터를 효율적으로 수집하고 정제하는 자동화된 솔루션으로, 대규모 데이터 크롤링과 고속 처리에 특히 유리합니다. Crawl4AI의 특징 Crawl4AI의 특징들 가..
FLEX3D는 다수의 시각적 입력을 활용해 텍스트 또는 이미지로부터 고품질의 3D 콘텐츠를 생성하는 모델입니다. 기존 다중 뷰 확산 모델은 다중 뷰 이미지를 합성하되 적은 수의 뷰만을 사용하고 이후 다시 3D 재구성을 위한 피드포워드 프로세스르 사용합니다. 이로 인해 생성된 시점들의 품질이 낮을 경우엔 최종 3D 재구성 결과물의 품질이 떨어지는 문제가 있었습니다. FLEX3D는 이런 문제를 후보 뷰 생성 및 큐레이션 파이프라인 소개, 유연한 FlexRM 아키텍처 설계, 모델의 견고성을 향상시키기 위해 불완전한 입력 뷰를 시뮬레이션하는 새로운 교육 전략 등을 적용해 해결하고 있습니다. 위 그림을 보면 FLEX3D는 두 단계로 나누어 동작합니다. 첫 번째 단계에서는 후보 시점 생성 및 선별 과정으로..
이미지 생성 모델하면 떠 오르는 것들이 있을 겁니다. 최근에는 워낙 많이 생겨서 다 나열하기 힘들지만 그래도 떠오르는 이름 말입니다. Stable Diffusion, DALL-E, MidJourney, Flux.1 등등... 그 가운데 하나가 Black Forest Labs에서 공개한 Flux.1 입니다. MidJourney의 아성에 도전하듯 혜성같이 나타났다고 해도 과언이 아니죠. 사실 Flux.1을 개발한 연구진은 예전 Stable Diffusion을 개발했던 연구자들이기도 합니다. 그 연구자들이 나와서 만든 회사가 The Forest labs거든요. Flux.1의 경우, 3가지 버전 가운데 Schnell (가장 경량)은 Apache 2.0 라이선스로 상용으로 활용할 수도 있습니다. 그 위의 De..
미 육군, AI 소총으로 무장한 로봇개 공개미국 육군이 AI 소총을 장착하고 드론을 탐지,격추하는 역할을 할 사족보행 로봇개를 중동에서 테스트 중이라고 발표했습니다. (AI타임스) 손정의 회장, 초인공지능(ASI) 10년 내 도래 전망소프트뱅크 손정의 회장은 10년 내 초인공지능(ASI)이 도래해 인간을 능가할 것이라 전망했습니다. (핀포인트뉴스) AI로 모든 질병 치료 가능해질까?구글 딥마인드 CEO 데미스 허사비스는 AI가 10년 내에 모든 질병을 치료할 수 있는 능력을 갖출 것이라고 전망했습니다. (세계일보) 산업 혁명의 다음 주역, 생성형 AIKAIST와 SKT 등 주요 AI 전문가들은 생성형 AI가 새로운 산업혁명을 이끌고 있다고 평가하며 한국어 AI모델의 글로벌 경쟁력 강화 필요성을 지적했습..
Typescript를 처음 접했는데, 일단 간단하게만 구동시키는 방법을 정리해 봅니다.그래도 간단하게는 어떤 녀석인지 알아야 할 것 같네요. ^^ Typescript란TypeScript는 Javascript의 상위집합으로 Microsoft가 개발한 오픈소스 프로그래밍 언어입니다.Javascript 위에 정적 타입 시스템과 ECMAScript 기능을 추가해서 더 견고하고 유지보수가 쉬워졌다고 합니다. 즉, Javascript의 약점이었던 타입 오류로 인한 런타임 오류, 코드 품질 등의 문제 해결을 위한 것이라고 보입니다. 주요 특징은 다음과 같습니다. 정적 타입 지정 (Static Typing) : 변수, 함수 등의 데이터 타입 명시적 지정 가능. 타입 오류 줄일 수 있음타입 추론 (Type Infere..