일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 3d 재구성
- ChatGPT
- 휴머노이드 로봇
- 딥러닝
- 티스토리챌린지
- AI 기술
- LORA
- ai 챗봇
- 오픈소스
- 오픈AI
- 인공지능
- 메타
- AI
- 트랜스포머
- 일론 머스크
- 우분투
- XAI
- OpenCV
- OpenAI
- PYTHON
- LLM
- 오블완
- 생성형AI
- 확산 모델
- 코딩
- 강화 학습
- tts
- 다국어 지원
- ubuntu
- 시간적 일관성
- Today
- Total
목록전체 글 (529)
AI 탐구노트

애플, AI 기능 탑재된 아이폰16 공개애플이 인공지능(AI) 기능을 강화한 아이폰16 시리즈를 발표했습니다. 기본, 플러스, 프로, 프로맥스 모델로 구성되며, 최신 A18 프로 칩셋을 탑재했으며 카메라 조작 버튼 추가와 더불어 AI 기반의 자동 글쓰기, 이모티콘 생성 기능도 포함됐습니다.(한겨레) 농업인 대상 AI 경진대회 농촌진흥청은 오는 10월 30일 열릴 '2024 농업인 생성형 인공지능 경진대회'를 앞두고 9월 9일부터 27일까지 농업경영체 등록 농업인들의 참가 신청을 받아 농업경영 관련 문제 해결 능력을 평가하며, 참가자들은 생성형 AI를 활용한 사업기획, 경영진단, 판촉 등의 문제를 다룹니다. (케이엔뉴스) 중국, AI 기술 개발에 1900조원 이상 투자 계획중국이 AI산업 성장을 국가 우..
새로 Ubuntu 24.04를 설치했고 원격 접속을 위한 설정을 해 봅니다. 주로 원격접속에 많이 사용되는 vnc, rdp, ssh 가운데 여기서는 ssh server 구성을 통한 ssh 연결을 하는 과정을 적어 봅니다. 아래 내용에 포함되어 있지만 우분투 24.04에서 이전과 달라진 부분 (ssh.socket) 이 있어서 왜 안 되는지 몰라서 계속 해메다가 검색을 통해 해답을 찾았습니다. 괜한 시행착오를 몇 번이나 했었네요... -_-; SSH 서버 설치 및 설정 SSH 서버 설치많이 사용하는 Openssh 서버를 설치합니다. # Openssh 서버 설치$ sudo apt install openssh-server# 서비스 상태 확인. service load 상태가 disabled 일 것임$ sudo s..

프로그래머블 그레디언트 정보(PGI)와 효율적인 네트워크 구조(GELAN)를 결합한 새로운 객체 탐지 모델 YOLOv9는 프로그래머블 그레디언트 정보(PGI)와 효율적인 네트워크 구조(GELAN)를 결합하여 다양한 모델 크기에서도 우수한 성능을 발휘하는 새로운 객체 탐지 모델입니다. 객체 감지(Detection) 외에도 이미지 세분화(Segmentation) 및 분류 (Classification)도 지원합니다. YOLO 시리즈 모델들은 워낙 유명해서 별도로 소개가 필요치 않을 수도 있겠다 싶긴 합니다. 하지만, 기존 버전에 새로운 기능이 추가되어 새로운 버전이 나오면 이전 버전의 유명세에 힘입어 쉽사리 사람들의 주목을 끌 수 밖에 없는 숙명을 가지고 있는 모델이기도 한 것 같습니다. 기존 딥러닝 네트..

AI, 미국 채용과 입시의 변화를 이끌다미국의 구직 및 입시 시장에서, 구직자들이 AI 도구를 활용해 지원서를 작성하면서 지원자 수는 증가했지만, 기업은 우수한 인재 선별이 어려워지거나 대학 입시에서도 AI 활용이 확대되며 기존 에세이 평가의 의미가 퇴색하는 등 새로운 도전에 직면하고 있다고 합니다. (한겨레) AI 영상 진단, 필수 의료 도구로 자리 잡는다AI 영상 진단 기술을 보유한 루닛, 뷰노, 제이엘케이, 뉴로핏 등 주요 기업들이 진단의 정확도를 높이며 의료 분야 AI 시장을 주도하고 있으며 정부도 AI 기반 응급 예측 모델과 의료 데이터를 활용하는 지원책을 마련하고 있어 2028년까지 필수 의료 분야 AI 기술 투자를 2배 확대할 예정이라고 합니다. (팜뉴스)경기도, 생활밀착형 AI 서비스 시범..

Lightning AI가 공개한 AI 모델 서빙을 위한 고속의 유연한 엔진 LitServe는 AI 모델을 웹 서비스로 배포하는 과정을 간소화하고, 기존 방식 대비 최대 50% 더 빠른 배포 속도를 제공하는 도구입니다. 기존의 AI 모델 배포 도구들은 복잡한 설정과 높은 기술적 요구사항이 있어, 인프라 구축과 확장성에 어려움을 겪으며 배포 시간이 오래 걸리기도 하고 동시 요청 처리나 성능 최적화가 어렵고 GPU 리소스를 효과적으로 관리하거나 확장하는데 한계가 있었습니다. LitServe는 FastAPI 기반의 AI 모델 서빙 엔진으로, 배치 처리와 GPU 자동 확장 기능을 제공해 기존 문제를 해결합니다. 간단한 설정과 사용자 친화적인 인터페이스로, 초보자도 쉽게 모델을 배포할 수 있도록 도와주며, PyT..

Microsoft가 개발한 최첨단 경량 멀티 모달 AI 모델 Phi-3.5-vision은 Microsoft가 개발한 멀티모달 AI 모델입니다. Phi-3.5-vision은 텍스트와 이미지를 동시에 처리할 수 있어 이미지 인식, 비디오 요약, OCR(광학 문자 인식), 시각적 질문 응답 등의 다양한 작업을 수행할 수 있고 문서 분석과 과학적 차트 해석에서도 강점을 보이며 자원을 효율적으로 사용하여 훨씬 더 큰 규모의 모델에 필적하는 성능을 보여줍니다. 이 모델은 GPU 환경에서 최적의 성능을 발휘하도록 설계되었으며, 특히 데이터 세트 기반 학습과 인간의 피드백을 통한 강화 학습 방식을 사용합니다. 확장성과 효율성 문제를 해결하기 위해 MoE(Mixture of Experts) 아키텍처를 도입했습니다. 기존..

AI가 주도하는 디자인 혁신의 시대AI는 디자인 산업에서 반복적인 작업을 자동화하며, 디자이너들이 창의적인 부분에 더 집중할 수 있게 도우므로써 디자인의 미래를 재정의하고 디자이너와 협력하는 파트너로 자리잡고 있습니다. (디자인 정글) 특허청, 바이오·로봇·AI 분야 특허 심사관 60명 채용특허청은 바이오(35명), 첨단로봇(16명), 인공지능(9명) 분야에서 전문임기제 특허심사관을 채용하여 우리 기업이 특허를 더 빨리 확보할 수 있도록 돕고, 기술력 강화를 목표로 합니다. (머니투데이)특허청, AI 발명 인정 기준 마련 추진특허청은 인공지능(AI)을 이용한 발명에서 AI의 기여도를 기준으로 발명 인정 여부를 판단할 지침을 마련하려는 계획을 발표했고 이는 특허 심사 기준에 반영되고, 국제적으로 조화된 ..

오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 오디오 기반 영상 합성 모델 Loopy는 오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 새로운 오디오 기반 영상 합성 모델입니다. 기존 오디오 기반 초상화 영상 합성 방법들은 자연스럽지 않은 움직임을 보이거나, 머리 움직임과 표정을 제한하는 공간적 조건(예: 얼굴 위치나 속도 등)을 추가하여 제한된 움직임을 만들어내는데 이는 움직임의 자유로움과 다양성이 떨어지는 결과를 만듭니다. Loopy는 오디오 신호만으로 영상을 생성하며, 공간적 템플릿 없이도 자연스러운 움직임을 학습합니다. 이를 위해 긴 시간의 모션 의존성을 학습할 수 있는 inter-clip 및 intra-clip 시간적 모듈을 도입하고, 오디오 정보를 잠재공간(latent..

복잡한 이미지, 비디오와 다국어 텍스트 인식을 지원하는 비전 언어 모델 Qwen2-VL은 이미지와 비디오의 복잡한 이해 및 다국어 텍스트 인식이 가능한 최신 비전-언어 모델입니다. 기존 비전-언어 모델은 이미지 해상도에 대한 제한, 다국어 인식 부족, 긴 비디오 처리의 어려움, 실시간 상호작용 및 복잡한 작업 처리의 한계가 있었습니다. Qwen2-VL은 Naive Dynamic Resolution과 Multimodal Rotary Position Embedding (M-ROPE) 기술을 도입해 다양한 해상도의 이미지와 긴 비디오를 처리하며, 향상된 객체 인식과 다국어 지원, 실시간 에이전트 기능으로 문제를 해결할 수 있습니다. 다양한 해상도와 비율을 처리하며 모바일 및 로봇 제어까지 수행할 수 있습니다..

텍스트 프롬프트로 3D 파노라마 장면을 생성하는 프레임워크LayerPano3D는 텍스트 프롬프트를 통해 몰입감 높은 3D 파노라마 장면을 생성하는 새로운 프레임워크입니다. 기존 3D 장면 생성 방법은 연속적인 장면 확장 시 의미적 일관성이 떨어지거나, 복잡한 계층 구조를 제대로 처리하지 못하고 시야각의 제한을 받는 문제가 있었습니다. LAYERPANO3D는 2D 파노라마를 여러 깊이 계층으로 분해하고, 각 계층에서 숨겨진 공간을 생성하여 복잡한 장면 구조를 처리합니다. 이 방식은 텍스트 지시 기반의 앵커 뷰 생성과 다층 3D 파노라마를 결합해 360도 전방위적 시야와 자유로운 탐색을 제공합니다. LayerPano3 프레임워크의 특징은 다음과 같습니다. 텍스트 지시 앵커 뷰 생성텍스트 프롬프트를 기반으로 ..