일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 휴머노이드 로봇
- 오픈AI
- 일론 머스크
- 오블완
- LORA
- 메타
- 딥러닝
- PYTHON
- 생성형 AI
- AI
- AI 기술
- 시간적 일관성
- 딥마인드
- ControlNet
- 아두이노
- 인공지능
- OpenAI
- 서보모터
- tts
- 가상환경
- TRANSFORMER
- ChatGPT
- 트랜스포머
- LLM
- 확산 모델
- 우분투
- 멀티모달
- ubuntu
- 뉴럴링크
- 티스토리챌린지
- Today
- Total
목록2024/09 (80)
AI 탐구노트
증명사진을 손쉽게 생성할 수 있도록 도와주는 도구 HivisionIDPhotos는 AI 기반으로 ID 사진을 생성하는 도구입니다. 이 도구는 다양한 크기와 규격의 ID 사진을 만들 수 있으며, AI 알고리즘을 사용해 사진에서 인물만을 정확하게 추출하고 깨끗한 배경을 제거하고 사용자의 요구에 맞게 배경 색상 등을 변경할 수 있도록 해 줍니다. HivisionIDPhotos가 제공하는 주요 기능은 다음과 같습니다:자동 인물 추출: AI 알고리즘을 통해 인물을 배경에서 분리다양한 규격 지원: 여권, 비자 등의 규격에 맞는 ID 사진 생성배경 변경: 사용자 요구에 맞춰 배경 색상 등을 변경여러 장의 사진 레이아웃 생성: 6인치 레이아웃으로 여러 장의 ID 사진을 한 번에 배치함. 이렇게 출력하면 비용을 절약할..
ETRI, 세계 최초 8광자 큐비트 칩 개발한국전자통신연구원(ETRI)이 양자컴퓨팅에 필수적인 8광자 큐비트 집적회로 칩을 세계 최초로 개발했으며, 6큐비트 양자얽힘을 성공적으로 구현해 냈습니다. (동아사이언스)AI 활용 기사 심의 준칙, 윤리적 기사 작성 위한 새로운 기준인터넷신문윤리위원회가 'AI 활용기사 자율심의준칙'을 제정해 2024년 9월부터 시행한다고 밝혔는데, 이 준칙은 AI를 활용한 기사 작성 시 인공지능 사용 사실을 투명하게 표시하고, 저작권과 초상권을 보호하도록 규정하고 있습니다. (동아사이언스) 의료 AI 연구개발 로드맵 발표, 필수의료 중심으로 기술 확대정부가 '의료 AI 연구개발 로드맵(2024~2028)'을 발표하며, 필수의료와 신약개발 등에서 AI 활용을 확대할 계획이라고 밝혔..
확장된 변형 흐름 트랜스포머 기반의 텍스트-음악 생성 모델 FLUXMusic는 텍스트-음악 생성 작업을 위해 확장된 변형 흐름 트랜스포머 기반의 모델입니다.기존 확산 모델은 고차원 데이터를 효과적으로 처리하지만, 반복적인 샘플링 과정에서 높은 계산 비용과 긴 추론 시간이 발생합니다. FluxMusic은 텍스트-음악 생성에서 Rectified Flow(수정된 흐름)와 Transformer 구조를 적용해, 효율적인 학습과 더 나은 생성 성능을 달성함으로써 이러한 문제를 해결하고 있습니다. 즉, 빠른 학습 속도 및 생성된 오디오의 높은 품질, 입력된 프롬프트에 잘 어울리는 음악 생성, 모델 복잡도를 낮춰 계산 비용을 낮추고 추론 속도를 높일 수 있다는 장점을 제공합니다. 이 모델의 특징은 다음과 같습니다.이..
우분투 24.04 LTS로 업그레이드 하고나서 패키지 업데이트를 한다고 해서 허락했더니 재부팅 후 역시나 다음과 같은 오류가 발생했습니다.$ nvidia-smiFailed to initialize NVML: Driver/library version mismatchNVML library version: 545.23 위의 오류는 NVIDIA GPU의 driver 버전이 커널의 것과 다를 경우에 나오는 것이라고 알려져 있습니다. 최근 업데이트를 통해 설치된 현재의 커널이 사용 중인 버전은 535.183.01 이네요... (아래 그림 참조)$ modinfo nvidiafilename: /lib/modules/6.8.0-41-generic/updates/dkms/nvidia.ko.zstfirmware..
메타의 AI 시스템, 자살 예방 위해 인도 경찰과 협업메타의 인공지능 시스템이 인도에서 인스타그램에 올라온 자살 시도 사진을 감지해 경찰에 경고를 보냈고, 신속한 대응으로 20대 여성을 구했습니다. (ZDNet)AI 도입으로 석유 시장 변화: 유가 하락 예측골드만삭스는 향후 10년간 인공지능(AI)의 도입으로, 물류와 자원 배분을 개선해 생산성을 25% 높여 석유 시장에 변화를 가져와 유가 하락을 유발할 수 있다고 예상했습니다. (The Guru)국내 시장, AI 챗봇 유료 사용률 저조국내에서 AI 챗봇을 유료로 사용하는 비율이 6%에 그쳐, AI 챗봇이 상업적으로 아직 매력이 부족하다는며 장기적인 성장성 확보를 위해서는 수익성 있는 '킬러앱'이 필요하다는 의견입니다. ( 연합뉴스) 광주, AI 실증도시..
PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋 PDFA-ENG-WDS는 PDF 문서에서 텍스트와 이미지 정보를 추출하여 기계 학습에 적합한 형태로 제공하는 데이터셋입니다. 이 데이터셋은 텍스트와 이미지의 바운딩 박스 정보를 포함한 OCR 주석을 제공하며, 주로 영어 문서를 대상으로 필터링되었습니다. 이미지-텍스트 멀티모달 학습에 사용될 수 있으며, 데이터셋 크기는 약 1.5TB 로, 대규모 학습에 최적화된 형식으로 제공된다고 합니다. 웹 데이터셋(WDS) 형식으로 제공되어 효율적인 다운로드와 처리가 가능합니다. 아래 그림은 PDF에서 바운딩 박스 정보를 포함한 OCR 데이터를 추출한 데이터 예시를 보여주고 있습니다. 이 데이터셋은 영어 PDF 문서에서 텍..
대화형 NVIDIA 장치 및 프로세스 모니터링 도구 nvitop은 NVIDIA GPU 상태 및 프로세스를 실시간으로 모니터링하는 인터랙티브 툴입니다. NVIDIA 그래픽 드라이버 설치 시 기본 제공되는 nvidia-smi보다 풍부한 정보를 제공하며, 사용자는 GPU 장치 상태, 프로세스 필터링, 리소스 사용량, 환경 변수 등을 모니터링할 수 있습니다. 또한, CUDA 장치 선택 도구(nvisel)와 머신러닝 프레임워크(TensorFlow, PyTorch)를 위한 콜백 함수도 지원합니다. 주요 기능은 다음과 같습니다. 실시간 리소스 모니터링프로세스 필터링 및 트리 뷰 제공다채로운 그래프와 유저 입력에 따른 상호작용 지원NVIDIA 드라이버 설치 스크립트 제공 실제 실행되면 다음과 같이 사용됩니다. 아래 ..
메타 AI, 사용자 수 빠르게 증가 중…챗GPT와 격차 줄여메타의 마크 저커버그 CEO는 메타 AI의 주간 활성 사용자 수가 1억 8500만 명에 도달했다고 발표했는데 이 수치는 오픈AI의 챗GPT 사용자 수 2억 명에 근접한 것이며 저커버그 CEO는 이 수치가 더 늘어날 것으로 전망하고 있습니다. (AI타임스) 오픈AI, 투자 유치 위해 영리기업 전환 추진…상장 가능성 제기오픈AI가 현재 예상되는 적자와 AI 모델 개발의 막대한 비용 때문에 대규모 자금 유치를 위해 영리기업으로 전환을 검토 중이며, 상장 가능성도 제기되고 있습니다. (AI타임스) 프랑스의 AI 우선순위: 투자와 산업 발전에마뉘엘 마크롱 프랑스 대통령은 AI 산업 발전을 위한 투자의 중요성을 강조하며, 유럽이 미국과 중국에 뒤처지지 않..
StyleGAN의 제약사항을 해결한 새로운 생성 아키텍처 모델 StyleGAN은 베이스가 되는 PGGAN 모델에 Style Transfer 개념을 도입해서 새로운 G(generator) 아키텍처를 만든 것입니다. 이 모델이 처음 발표되었을 때 충격이 상당했습니다. 지금이야 MidJourney나 DALL-E 등 diffusion 계열 생성 모델을 이용해서 실물같은 사진을 만들어내는 것이 다반사가 되었지만, 다양한 특징들이 적용된 실물같은 고화질 안면사진이 쉽게 만들어진다는 것은 당시로는 신기하는 일이었거든요. StyleGANEX은 StyleGAN이 가지는 제약사항을 해결해서 가변크기 이미지를 처리하고, 정열되지 않은 각도의 얼굴 이미지와 비디오에 대한 조작을 지원합니다. StyleGANEX가 지원하는 기..
언어, 이미지, 비디오 등을 엮어 다중모드 프롬프트로 표현하고 학습하여 로봇 팔을 제어할 수 있도록 한 에이전트 일반적으로 로봇(예:협동로봇)에게 작업을 지시하기 위해서는, 사람이 직접 로봇팔 등을 조작하는 것을 모방하도록 학습을 시키거나 언어적으로 지시문을 주고 이를 처리하도록 하거나 혹은 시각적으로 최종 상태를 목표로 제시하여 이를 달성하도록 학습시키는 방식이 사용됩니다. 그런데 이런 것들은 제각각 그 작업을 수행할 수 있도록 하는 전용 모델을 사용하게 되죠. NVIDIA에서 발표한 VIMA는 이렇게 하는 대신 언어, 이미지, 비디오 등을 엮어 다중모드 프롬프트로 표현하고 학습하여 로봇 팔을 제어할 수 있도록 한 에이전트입니다. 참고) 프로젝트, 깃헙, 논문, 영상