일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- AI 기술
- tts
- ChatGPT
- 오블완
- 확산 모델
- 아두이노
- 트랜스포머
- LLM
- Stable Diffusion
- 일론 머스크
- 오픈소스
- OpenAI
- OpenCV
- 생성형 AI
- 다국어 지원
- 강화 학습
- 멀티모달
- PYTHON
- 딥러닝
- 메타
- 인공지능
- 시간적 일관성
- AI
- LORA
- 휴머노이드 로봇
- 오픈AI
- TRANSFORMER
- ubuntu
- 우분투
- 티스토리챌린지
- Today
- Total
목록DIY 테스트 (61)
AI 탐구노트

1.개요1.1.졸음감지란?현대의 바쁜 일상에서 장시간 운전은 불가피해졌습니다. 특히 장거리 운행이나 야간 운전 중에는 운전자의 졸음이 심각한 사고를 초래할 수 있습니다. 국내의 경우, 최근 5년간(2019~2023) 통계로는 졸음운전으로 인한 교통사고가 1만765건, 그 사고로 인한 사망자는 316명에 이른다고 합니다. 음주운전의 2배 수준으로 위험하다고 하네요. 이에 따라 운전자 졸음 감지 시스템이 주목받고 있으며, 여러 기술 기업들이 이를 개발해 도로 안전성을 높이고 있습니다. 최근 나오는 차량에는 자율주행 등급에 따라 다르긴 하지만, 카메라를 이용한 졸음감지 기능이 탑재되어 있는 것들도 있습니다. 예를 들어 Tesla의 FSD 최신버전은 실내 (in-cabin) 카메라를 통해 운전자의 상태를 체크하..

1.개요1.1.ASCII Camera란?ASCII Camera는 웹캠으로 촬영한 영상을 ASCII 아트로 실시간 변환하여 출력하는 프로그램입니다. 일반적으로, 웹캠으로부터 입력받은 이미지나 영상의 밝기 정보를 사용해 각 픽셀에 해당하는 ASCII 문자를 매핑하여 영상을 텍스트로 표현합니다. ASCII 아트로 변환된 결과는 CLI 환경에서도 시각적인 재미를 줄 수 있고, 이미지의 형태를 저용량 텍스트로 표현하기 때문에 네트워크 대역폭을 아낄 수 있다는 장점도 있습니다. 대표적인 ASCII 카메라 프로그램이나 라이브러리에는 Python의 opencv-python과 ASCII 변환을 위한 간단한 스크립트를 사용하여 구현된 예시들이 있으며, CLI에서 ASCII 카메라를 쉽게 실행할 수 있습니다. 일반적인 AS..

1.서론1.1.이미지 배경 제거사진 작업을 하다 보면 배경을 제거하는 작업, 흔히 ‘누끼따기’로 불리는 과정은 누구나 한 번쯤 경험해 보셨을 겁니다. 이 작업은 단순한 이미지 편집처럼 보이지만, 실제로는 많은 시간과 노력이 필요합니다. 보통은 Photoshop 같은 도구를 사용하고, 한땀한땀 추출해 낼 대상의 외곽을 지정하고 이를 추출합니다. 사실 그걸로 끝나는 건 아니구요... 추출한 대상을 배치할 다른 배경 이미지에 놓고 개체가 배경과 잘 어울릴 수 있도록 주변 색상이나 형태를 비슷하게 맞춰주는 작업도 필요하죠. 조명이나 질감 등까지 잘 맞춰주는 것은 물론이구요. 그러니, 이런 작업은 고도의 숙련도가 요구되며, 비전문가에게는 어려운 작업으로 느껴지기 쉽습니다. 최근에는 이처럼 복잡한 작업을 자동화하려..

1.개요1.1. 얼굴 속성 분석이란 얼굴 인식 기술이 점점 대중화되면서, 이에 대한 사용자의 반응도 각기 다르게 나타나고 있습니다. 특히 많은 사용자들은 자신의 얼굴이 카메라에 노출되거나 그로 인해 개인정보가 수집될 가능성에 대해 민감하게 반응합니다. 사용자는 편리한 서비스 제공의 필요성을 이해하면서도, 어디까지나 그 ‘편리함’이 본인의 프라이버시를 지켜주며 이뤄지기를 원하죠. 반면, 서비스 제공자는 더 나은 맞춤형 서비스를 위해 다양한 인구 통계 데이터를 얻고 싶어 합니다. 사용자 성향에 맞춘 광고 제공, 감정에 따른 콘텐츠 추천 등 다양한 가능성이 열려 있기에 그만큼 데이터의 확보가 중요하게 여겨지죠. 이처럼 양쪽의 입장이 뚜렷하게 나뉘는 상황에서 AI 기술이 과연 이 간극을 어떻게 좁힐 수 있을지 ..

1. 개요1.1. Crowd Counting이란?Crowd counting은 이미지나 비디오를 분석해 특정 공간 내 인원 수를 세는 기술입니다. 군중 밀도가 높은 곳에서 안전 관리를 하거나, 공공 시설의 혼잡도를 예측하고, 마케팅 이벤트에서 방문자 수를 추적하는 데 유용합니다. 최근 딥러닝의 발전으로 인해, 더 정밀한 군중 수를 예측할 수 있게 되면서 다양한 실용적인 활용 사례가 늘고 있습니다. 1.2 활용 사례Crowd Counting은 다음과 같은 다양한 분야에서 사용되고 있습니다. 스마트 시티 : 공공장소에서 실시간 인원 관리를 통해 안전과 편의를 증대대중교통 : 지하철역, 버스 정류장 등의 혼잡도를 분석하여 효율적인 운영 가능이벤트 관리 : 콘서트, 축제 등에서 군중의 밀도를 파악해 안전 문제 ..

1. 개요 자동차 번호판 감지는 다양한 방식으로 구현될 수 있습니다. 영상 기반의 전통적 이미지 처리 방식 : 번호판의 윤곽선을 감지하고 사각형 형태의 번호판 영역 찾기를 하는 방식딥러닝 기반 객체 탐지 모델 방식 : 자동차 번호판을 객체로 학습하여 이를 감지하는 방식, 차량을 먼저 찾고 거기서 다시 번호판을 찾는 방식 또는 바로 번호판을 찾는 방식으로 나뉠 수도 있음 하이브리드 방식 : 이미지 처리 기술로 번호판 가능성 있는 영역을 먼저 찾고 딥러닝으로 정확한 위치를 파악하는 방식 예전에는 OpenCV의 비전 기술을 이용해서 번호판 윤곽을 추출해서 찾는 첫번째 방법을 많이 사용했습니다. 현재도 많은 곳에서는 이렇게 처리하고 있을테구요. 하지만, 감지하려는 객체의 크기가 어느 정도가 되어야 하고 다양한 ..

1.들어가며아주 예전 코딩의 시작은 어떤 프로그래밍 언어를 사용하건 'hello, world!'를 콘솔에 찍어보는 것이었습니다. 찾아보니 이 행위는 1978년에 출판된 C 프로그래밍 책인 "The C Programming Language"에서 비롯된 것이라고 합니다. 사실 그 전에도 어셈블리, 베이식, 포트란, 등등 다양한 언어가 있었고 콘솔 출력은 당연히 할 수 있는 것이었는데, 뭔가 C 프로그래밍 언어의 출현이 가져올 상황을 미리 알기라도 한 듯 새로운 세계를 향한 인사를 한 것 같이 되어 버렸습니다. 2.개발 대상그런데, 최근에는 Native나 Web 기반의 UI 프로그램으로 개발을 시작하는 분들이 많아지다보니 과거의 Hello World를 찍던 프로그램이 이젠 할일 목록 (To-Do List)를..

스포츠 경기 영상을 보면서 경기를 분석하는 영상들을 가끔씩 보게 됩니다. 얼마 전까지만해도 이런 것들을 다 전반이 끝나고 혹은 경기 중 하이라이트 부분을 추출해서 그 부분만 나중에 분석해서 경기 중 중간중간 보여주는 방식으로, 죄다 사람들의 수작업 혹은 전문화된 프로그램에 의해 진행되었습니다. 그러다 AI가 등장하면서 이런 과정들을 AI가 처리해서 실시간 혹은 준 실시간으로 분석 결과를 영상에 입혀서 보여주는 사례들이 나오고 있습니다. (최근 올림픽에서 본 AI에 의한 업사이드 판정 수준이 아니죠) 해외의 경우, 프로축구팀들 가운데 일부는 이런 분석 시스템을 갖추고 있는 곳도 있다고 알고 있습니다. 훌라~ Roboflow 그런데, 이런 서비스를 이제 개인이 자체로 꾸려볼 수 있게 되었습니다. Robof..

Whisper Turbo Whisper Turbo는 OpenAI에서 개발한 Whipser의 최신 버전입니다. 'Turbo'라는 이름이 붙은 것처럼 높은 정확도에도 불구하고 기존 대비 처리 속도가 대폭 빨라졌습니다. 최대 8배 가까이 환경 구성 1.Anaconda 가상 환경$ conda create -n whisper python=3.10$ conda activate whisper 2.pytorch 설치 Whisper Turbo + 1.Flash Attention 2 설치이 녀석은 추론 속도를 최적화해서 제공하므로 설치하는 것이 좋다고 해서 진행합니다. github repository에는 설치 과정도 아래 딱 한 줄 명령어라 너무 쉽게 생각했던 것 같습니다. $ pip install flash-att..

배경 최근 아이폰을 사용하다보니 시리가 예전 대비해서는 많이 좋아졌다는 느낌을 받게 되었습니다. 제대로 말귀를 못 알아듣던 녀석이었는데 오호라... 하지만, 아직도 구글 어시스턴트나 ChatGPT와 같은 다른 서비스에 비하면 영 멀었다는 생각이 드는 건 어쩔 수 없습니다. 최근 나오는 ASR (Auto Speech Recognition) 혹은 STT (Speech to Text) 기능을 이용하면 실시간 번역 혹은 통역이 가능할 것 같고, 최신 휴대전화에는 온디바이스 AI 기능으로 이런 것이 소개되기도 합니다. 장비 자체의 연산 자원의 제약으로 아주 훌륭한 통번역은 좀 더 지나야 나올 수 있을 것 같긴 하지만, 그래도 간단한 문장들은 쉽게 처리해 주고 있어 언치(언어치 -_-;)인 저한테는 큰 기대가 되..