일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 시간적 일관성
- OpenAI
- 서보모터
- 확산 모델
- 메타
- tts
- ControlNet
- LLM
- 아두이노
- 오블완
- ChatGPT
- PYTHON
- AI
- 우분투
- 뉴럴링크
- 티스토리챌린지
- 이미지 편집
- 생성형 AI
- 딥마인드
- 가상환경
- 멀티모달
- 트랜스포머
- AI 기술
- LORA
- 인공지능
- TRANSFORMER
- ubuntu
- javascript
- 오픈AI
- 일론 머스크
- Today
- Total
AI 탐구노트
YOLOv9 : 새로운 Yolo 시리즈 객체 탐지 모델 본문
프로그래머블 그레디언트 정보(PGI)와 효율적인 네트워크 구조(GELAN)를 결합한 새로운 객체 탐지 모델
YOLOv9는 프로그래머블 그레디언트 정보(PGI)와 효율적인 네트워크 구조(GELAN)를 결합하여 다양한 모델 크기에서도 우수한 성능을 발휘하는 새로운 객체 탐지 모델입니다. 객체 감지(Detection) 외에도 이미지 세분화(Segmentation) 및 분류 (Classification)도 지원합니다.
YOLO 시리즈 모델들은 워낙 유명해서 별도로 소개가 필요치 않을 수도 있겠다 싶긴 합니다. 하지만, 기존 버전에 새로운 기능이 추가되어 새로운 버전이 나오면 이전 버전의 유명세에 힘입어 쉽사리 사람들의 주목을 끌 수 밖에 없는 숙명을 가지고 있는 모델이기도 한 것 같습니다.
기존 딥러닝 네트워크는 데이터가 레이어를 거치며 중요한 정보가 손실되는 문제(정보 병목 현상)가 있습니다. 특히 경량 모델의 경우, 정보 손실이 심화되어 모델이 신뢰할 수 없는 그레디언트로 학습되는 문제가 발생합니다. YOLOv9는 Programmable Gradient Information(PGI)를 도입하여 데이터의 손실을 최소화하고 신뢰할 수 있는 그레디언트를 생성합니다. 그리고, 메인 브랜치(main branch)에서 정보가 손실되는 문제를 보완하기 위해 보조적인 가역 경로(auxiliary reversible branch)를 추가로 사용합니다. 또한, Generalized Efficient Layer Aggregation Network(GELAN)를 활용해 경량화된 구조에서도 높은 정확도를 유지합니다.
* Programmable Gradient Information(PGI) : 딥러닝 모델이 학습할 때 신뢰할 수 있는 그레디언트(gradient)를 제공하여 모델의 성능을 높이는 기술, 즉 학습 중에 잃어버린 중요한 정보를 복구해서 더 정확하게 학습할 수 있도록 돕는 역할 수행
* Generalized Efficient Layer Aggregation Network(GELAN) : GELAN은 여러 층(layer)의 정보를 효율적으로 결합하여 더 적은 연산으로도 높은 성능을 내는 구조입니다. 임의의 연산 블록을 사용할 수 있어서 유연한 설계가 가능하며 경량 모델에서도 성능을 극대화하는데 도움
이 모델이 가지는 특징을 요약하면 다음과 같습니다.
- PGI(Programmable Gradient Information)
다중 수준의 보조 그레디언트 정보를 활용하여 정보 손실을 최소화하고, 모델의 성능을 극대화 - GELAN(Generalized Efficient Layer Aggregation Network)
다양한 크기의 모델에서 파라미터 효율성을 높이고, 경량화된 구조에서도 높은 성능을 발휘할 수 있도록 설계 - 다양한 크기의 네트워크에 적용 가능하며, 경량 모델에서부터 대규모 모델까지 높은 성능을 발휘합니다.
'AI 기술' 카테고리의 다른 글
GOT : 다양한 문자 인식 작업을 지원하는 모델 (1) | 2024.09.13 |
---|---|
Reshot AI : AI 기반의 안면 3D 사진 편집 도구 (0) | 2024.09.11 |
LitServe : FastAPI보다 훨씬 빠른 모델 서빙엔진 (0) | 2024.09.09 |
Phi-3.5 : 온디바이스 용 멀티 모달 모델 (0) | 2024.09.09 |
Loopy : 오디오 입력으로 초상화 아바타 영상 생성 모델 (0) | 2024.09.08 |