일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 일론 머스크
- OpenAI
- 티스토리챌린지
- ChatGPT
- 휴머노이드 로봇
- 우분투
- LLM
- AI
- TRANSFORMER
- 생성형 AI
- 시간적 일관성
- OpenCV
- 트랜스포머
- 오픈소스
- 오픈AI
- AI 기술
- 강화 학습
- tts
- 아두이노
- 인공지능
- 확산 모델
- PYTHON
- LORA
- 다국어 지원
- 딥러닝
- ubuntu
- Stable Diffusion
- 메타
- 오블완
- 멀티모달
- Today
- Total
목록2024/09 (80)
AI 탐구노트

OpenAI, 더 똑똑해진 AI 모델 'o1' 출시... 복잡한 문제 해결 능력 강화 OpenAI는 새로운 인공지능 모델 'o1'을 드디어 공개했습니다. 이 모델은 '스트로베리(trawberry)'라는 코드명을 가진 프로젝트로 진행되어 왔었는데, OpenAI의 실력을 이미 다 알고 있었기에 지난 발표 이후 생각보다 오랜 긴 침묵을 보며 이번에는 어떤 것들을 선보일까, 게다가 기존의 GPT-4 등에 사용된 기술이 아닌 전혀 다른 접근을 하고 있다는 얘기들도 있었기에 초기 버전의 AGI의 한 측면을 볼 수 있지 않을까 하는 기대를 불러일으켜 왔습니다. 공개된 내용에 의하면, o1은 추론, 특히 복잡한 문제 해결을 위한 추론에 특화되어 있고 과학, 수학, 코딩 등 다양한 분야에서 이전 모델보다 훨씬 뛰어난..

다양한 문자인식(OCR) 작업을 통합적으로 처리하는 모델 GOT(General OCR Theory)는 다양한 문자인식(OCR) 작업을 통합적으로 처리하는 고성능 모델입니다. 기존의 OCR 시스템은 다양한 모듈을 조합한 복잡한 구조로 구성되어 있어 유지 보수가 어렵고, 특정 작업에만 최적화되어 범용성이 떨어지고 고밀도 텍스트나 다양한 언어를 처리하는 데 한계가 있었습니다. GOT의 구조는 OCR 작업을 단순화하고 범용성을 극대화하려는 시도로 기존 방식의 복잡성을 해결하는 데 중점을 두고 있습니다. 고압축 인코더와 긴 맥락을 처리하는 디코더로 구성된 엔드 투 엔드 OCR-2.0 모델을 통해 다양한 입력 이미지 형식과 고해상도 문서 및 수식, 도표, 음악 악보 등의 복잡한 문자들을 처리할 수 있고 상호작용..

Mistral AI, 첫 멀티모달 AI 모델 출시프랑스 AI 스타트업 Mistral AI가 멀티모달 AI 모델 'Pixtral 12B'를 발표했습니다. 이 모델은 120억 개의 매개변수를 가지고 있으며, 이미지와 텍스트를 모두 처리할 수 있는 기능을 제공합니다. (애플경제) 프랑스의 대표적인 AI 기업으로는 Mistral AI와 AI 에이전트를 개발하는 H가 있습니다. Misral AI의 경우, Mistral, Mixtral 등의 모델을 공개하고나서 한동안 잠잠했었던터라 이번 모델 출시를 계기로 또 어떤 모습을 보여줄 지 기대됩니다. Mitral AI의 CEO인 아서 멘쉬의 경우, 오픈소스 LLM 모델을 개발하되 일정 규모 이상의 것은 유료로 개발자들에게 공급하는 수익 모델을 가지고 있다는 것이 다른 곳..

얼굴 표현, 포즈, 조명 등을 수정하여 프로페셔널한 사진을 쉽게 만들 수 있는 AI 기반의 사진 편집 도구 Reshot AI는 얼굴 표현, 포즈, 조명 등을 수정하여 프로페셔널한 사진을 쉽게 만들 수 있는 AI 기반의 사진 편집 도구입니다. 전통적인 사진 편집 도구로는 고품질 이미지를 생성하는 데 많은 시간과 기술이 필요하며, 원하는 표정, 배경, 조명을 직접 수정하는 것이 어려웠습니다. 그런데 반해 Reshot AI는 AI를 활용하여 얼굴 표정, 조명, 배경을 자동으로 수정하고 다양한 포즈를 생성하여 사용자가 손쉽게 전문적인 사진을 만들 수 있도록 합니다. Reshot AI의 핵심 기능은 얼굴의 주요 포인트를 인식하고 이를 기반으로 표정과 조명을 재구성하는 것인데, 이 과정에서 AI 알고리즘을 ..

애플, AI 기능 탑재된 아이폰16 공개애플이 인공지능(AI) 기능을 강화한 아이폰16 시리즈를 발표했습니다. 기본, 플러스, 프로, 프로맥스 모델로 구성되며, 최신 A18 프로 칩셋을 탑재했으며 카메라 조작 버튼 추가와 더불어 AI 기반의 자동 글쓰기, 이모티콘 생성 기능도 포함됐습니다.(한겨레) 농업인 대상 AI 경진대회 농촌진흥청은 오는 10월 30일 열릴 '2024 농업인 생성형 인공지능 경진대회'를 앞두고 9월 9일부터 27일까지 농업경영체 등록 농업인들의 참가 신청을 받아 농업경영 관련 문제 해결 능력을 평가하며, 참가자들은 생성형 AI를 활용한 사업기획, 경영진단, 판촉 등의 문제를 다룹니다. (케이엔뉴스) 중국, AI 기술 개발에 1900조원 이상 투자 계획중국이 AI산업 성장을 국가 우..
새로 Ubuntu 24.04를 설치했고 원격 접속을 위한 설정을 해 봅니다. 주로 원격접속에 많이 사용되는 vnc, rdp, ssh 가운데 여기서는 ssh server 구성을 통한 ssh 연결을 하는 과정을 적어 봅니다. 아래 내용에 포함되어 있지만 우분투 24.04에서 이전과 달라진 부분 (ssh.socket) 이 있어서 왜 안 되는지 몰라서 계속 해메다가 검색을 통해 해답을 찾았습니다. 괜한 시행착오를 몇 번이나 했었네요... -_-; SSH 서버 설치 및 설정 SSH 서버 설치많이 사용하는 Openssh 서버를 설치합니다. # Openssh 서버 설치$ sudo apt install openssh-server# 서비스 상태 확인. service load 상태가 disabled 일 것임$ sudo s..

프로그래머블 그레디언트 정보(PGI)와 효율적인 네트워크 구조(GELAN)를 결합한 새로운 객체 탐지 모델 YOLOv9는 프로그래머블 그레디언트 정보(PGI)와 효율적인 네트워크 구조(GELAN)를 결합하여 다양한 모델 크기에서도 우수한 성능을 발휘하는 새로운 객체 탐지 모델입니다. 객체 감지(Detection) 외에도 이미지 세분화(Segmentation) 및 분류 (Classification)도 지원합니다. YOLO 시리즈 모델들은 워낙 유명해서 별도로 소개가 필요치 않을 수도 있겠다 싶긴 합니다. 하지만, 기존 버전에 새로운 기능이 추가되어 새로운 버전이 나오면 이전 버전의 유명세에 힘입어 쉽사리 사람들의 주목을 끌 수 밖에 없는 숙명을 가지고 있는 모델이기도 한 것 같습니다. 기존 딥러닝 네트..

AI, 미국 채용과 입시의 변화를 이끌다미국의 구직 및 입시 시장에서, 구직자들이 AI 도구를 활용해 지원서를 작성하면서 지원자 수는 증가했지만, 기업은 우수한 인재 선별이 어려워지거나 대학 입시에서도 AI 활용이 확대되며 기존 에세이 평가의 의미가 퇴색하는 등 새로운 도전에 직면하고 있다고 합니다. (한겨레) AI 영상 진단, 필수 의료 도구로 자리 잡는다AI 영상 진단 기술을 보유한 루닛, 뷰노, 제이엘케이, 뉴로핏 등 주요 기업들이 진단의 정확도를 높이며 의료 분야 AI 시장을 주도하고 있으며 정부도 AI 기반 응급 예측 모델과 의료 데이터를 활용하는 지원책을 마련하고 있어 2028년까지 필수 의료 분야 AI 기술 투자를 2배 확대할 예정이라고 합니다. (팜뉴스)경기도, 생활밀착형 AI 서비스 시범..

Lightning AI가 공개한 AI 모델 서빙을 위한 고속의 유연한 엔진 LitServe는 AI 모델을 웹 서비스로 배포하는 과정을 간소화하고, 기존 방식 대비 최대 50% 더 빠른 배포 속도를 제공하는 도구입니다. 기존의 AI 모델 배포 도구들은 복잡한 설정과 높은 기술적 요구사항이 있어, 인프라 구축과 확장성에 어려움을 겪으며 배포 시간이 오래 걸리기도 하고 동시 요청 처리나 성능 최적화가 어렵고 GPU 리소스를 효과적으로 관리하거나 확장하는데 한계가 있었습니다. LitServe는 FastAPI 기반의 AI 모델 서빙 엔진으로, 배치 처리와 GPU 자동 확장 기능을 제공해 기존 문제를 해결합니다. 간단한 설정과 사용자 친화적인 인터페이스로, 초보자도 쉽게 모델을 배포할 수 있도록 도와주며, PyT..

Microsoft가 개발한 최첨단 경량 멀티 모달 AI 모델 Phi-3.5-vision은 Microsoft가 개발한 멀티모달 AI 모델입니다. Phi-3.5-vision은 텍스트와 이미지를 동시에 처리할 수 있어 이미지 인식, 비디오 요약, OCR(광학 문자 인식), 시각적 질문 응답 등의 다양한 작업을 수행할 수 있고 문서 분석과 과학적 차트 해석에서도 강점을 보이며 자원을 효율적으로 사용하여 훨씬 더 큰 규모의 모델에 필적하는 성능을 보여줍니다. 이 모델은 GPU 환경에서 최적의 성능을 발휘하도록 설계되었으며, 특히 데이터 세트 기반 학습과 인간의 피드백을 통한 강화 학습 방식을 사용합니다. 확장성과 효율성 문제를 해결하기 위해 MoE(Mixture of Experts) 아키텍처를 도입했습니다. 기존..