일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 트랜스포머
- 메타
- 우분투
- 아두이노
- 가상환경
- 멀티모달
- ChatGPT
- 딥마인드
- 생성형 AI
- ControlNet
- TRANSFORMER
- 서보모터
- LORA
- ubuntu
- PYTHON
- 이미지 편집
- 시간적 일관성
- tts
- LLM
- OpenAI
- 일론 머스크
- 인공지능
- 뉴럴링크
- 오블완
- AI 기술
- 티스토리챌린지
- 확산 모델
- 오픈AI
- AI
- javascript
- Today
- Total
목록2024/09 (80)
AI 탐구노트
우분투에서 스마트폰 화면을 데스크톱에 미러링하는 방법을 알아 봅니다. 스마트폰 앱에서 뭔가를 해야 하는데 아무래도 손가락으로 하는 작업보다 키보드를 이용하는 경우가 편한 경우가 있죠?예를 들어 타이핑이 많이 필요한 경우라거나 혹은 스마트폰 화면을 캡처해야 하는 경우 같이 말입니다. 그런 때 필요한 것이 미러링인데 우분투에도 이를 지원하는 scrcpy라는 도구가 있습니다. SCRCPYscrcpy는 오픈소스 미러링 도구라고 보면 됩니다.화면/소리/마우스/키보드 원격 제어를 지원하며 다음과 같은 특징을 가지고 있습니다.호스트 OS : 윈도우, 우분투, Mac 등 다 지원USB, Wifi 지원가볍고(native), 성능좋고(30~60fps), 고해상도 지원(FHD 이상 가능),저지연(35~70ms), 바로시작..
초저비트레이트에서 고품질의 음악을 복원할 수 있는 음악 코덱 MuCodec은 초저비트레이트에서 고품질의 음악을 복원하기 위한 음악 코덱으로 이를 이용해 음성 및 배경음 등을 효과적으로 처리해 높은 품질의 음악을 재생할 수 있습니다. 기존의 음악 압축 기술들은 음악의 복잡한 배경과 보컬의 풍부한 표현을 모두 재현하지 못해 정보 손실이 발생하며, 저비트레이트에서는 재생 품질이 크게 저하되는 문제가 있었습니다. MuCodec은 두 가지 중요한 요소인 보컬과 배경음악을 고려하여, MuEncoder로 음향 및 의미적 특징을 추출하고, 이를 RVQ로 양자화한 뒤, 흐름 맞춤(flow-matching)을 통해 Mel-VAE 특징을 복원하여 HiFi-GAN을 통해 음악을 재생합니다. 위 그림에서 소개되는 MuC..
9월 25일 (현지 시간 기준) 메타의 연례 개발자 컨퍼런스 '커넥트 2024' 행사가 있었습니다.많은 기술과 제품이 소개되었는데 그 가운데 제 관심을 끈 것은 레이벤 스마트 안경 'Orion'과 '메타 퀘스트 3S'였습니다. 발표 내용에서 제가 느낀 것을 요약하면 다음과 같았습니다. 미래에 나올 건 Orion인데 시간이 걸리니 지금은 퀘스트3S로 만족하고 있어줘~ 퀘스트2를 가지고 있는 입장에서 저렴한 가격의 퀘스트3S가 제대로 된 MR까지 지원하는 상황이라 약간 약이 오르기도 했습니다.하지만 어쩔 수 있나요... 기술은 머물러 있는게 아니라 계속 발전하며 흘러가고 있는데... 레이벤 스마트 안경 'Orion' 그래도 사람들의 이목을 끈 것은 단연 레이벤 스마트 안경인 'Orion'이었습니다..
사람의 2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측을 수행하는 단일 모델 Sapiens는 인간 중심의 4가지 주요 비전 작업(2D 포즈 추정, 신체 부위 분할, 깊이 예측, 표면 법선 예측)을 위한 고성능 비전 트랜스포머 모델입니다. 기존 모델들은 인간 중심의 비전 작업에서 일반화 성능이 낮고, 다양한 작업을 일관되게 수행하기 어렵다는 한계가 있었습니다. 또한, 현실 세계의 데이터를 충분히 반영하지 못하거나, 고해상도 출력을 지원하지 못해 세부적인 표현이 부족했습니다. Sapiens는 3억 장 이상의 인간 이미지 데이터셋(Human-300M)로 MAE(Masked AutoEncoder) 접근 방식을 사용하여 사전 학습된 비전 트랜스포머 모델(ViT)을 활용하여 2D 포즈 추정, 신체..
격세지감(隔世之感) 우분투를 사용하다보니 아주 예전보다는 리눅스 데스크탑 환경이 정말 좋아졌다는 생각이 듭니다.오래 전이긴 하지만 리눅스는 사용자 경험 때문에 절대 윈도우를 대체할 수 없다는 의견들이 많았었거든요.그 사이 수많은 윈도우 대체 용 리눅스 배포판이 나왔다가 사라졌죠.실제로 리눅스에서 돌아가는 프로그램들 가운데 업무용으로 사용할 수 있는 것들도 그리 많지 않았고 말이죠. 그러다 리눅스 데스크탑은 완전히 환골탈태 했습니다.제 경우, 회사 업무의 거의 대부분을 우분투를 이용해서 하는데 전혀 불편함을 못 느꼈습니다. 가장 큰 걸림돌이었던 것은 MS Office와 한글 등일텐데 둘 다 웹 버전을 내놔서 이제는 운영체제에 관여받지 않죠.게다가 윈도우 에뮬인 WINE의 성능도 좋아져서 대부분 툴을 돌릴..
LG, ‘엑사원 3.0’ 오픈소스 공개LG AI연구원이 초거대 AI 모델 '엑사원 3.0 7.8B 모델을 오픈소스로 공개하며 글로벌 AI 경쟁에 뛰어들었고, 내부 임직원들의 업무 지원을 위한 AI비서 서비스로 ChatEXAONE을 베타 테스트 중이라고 밝혔습니다. (ZDNet Korea) 지구 온난화 가속화로 영구동토층 해빙 및 산불 급증 우려 IBS 연구팀은 지구온난화로 영구동토층 해빙이 가속화되면서 토양 수분 감소와 대기 건조로 인해 북극과 시베리아 등 북반구 지역의 산불이 심각해질 것으로 전망하고 있습니다. (헤럴드경제) K밸류업 지수, 삼성전자·현대차 포함 100개 종목 한국거래소가 시장대표성, 수익성, 주주환원, 시장평가, 자본효율성 등을 기준으로 100여개 종목을 선정하여 코리아 밸류업 지수..
윈도우 11에서는 어플리케이션을 데스크탑 화면에서 좌/우/상/하/전체로 쉽게 바꿀 수 있어 편리했습니다.우분투에서 기본 사용 중인 gnome에서도 비슷한 기능이 있어 잘 사용하고 있죠. 그러다...모니터 하나에 창을 좀 더 많이, 원하는 배치로 손쉽게 옮겨다닐 수 있으면 좋겠다 싶었습니다.즉, 4분할을 하거나 8분할을 하거나 위치를 서로 바꾸거나 등등...보조 모니터를 사용하게 되면 좋긴 하지만 공간을 많이 차지하므로 대안은 있어야 할 것 같았습니다. 그래서, 방법을 찾아보니 역시 좋은 대안이 있더군요. Awesome-tiles Gnome 데스크톱 매니저에 확장 기능으로 제공하는 도구인데 Super키와 확장 키보드 쪽의 숫자패드 부분을 사용합니다. 설치과정 설치 과정은 다음과 같은 과정으로 진행됩..
보조지점 지침(APG)과 암시적 특징보간(IFI)를 도입해 군중의 수를 카운팅하는 기법 APGCC는 보조지점 지침(APG)과 암시적 특징보간(IFI)를 도입해 군중의 수를 카운팅하는 기법입니다. 군중의 수를 세는 딥러닝 기반의 접근 방식은 다음과 같은 것들이 있습니다.CSRNet (Convolutional Neural Network based Crowd Counting) : CNN 기반의 이미지 밀도 예측 방식 MCNN (Multi-column Convolutional Neural Network) : 다양한 필터를 이용해 다양한 밀도 수준의 군중 수 측정 방식CAN (Context-Aware Network) : 군중 밀도 추정 시 컨텍스트 정보 활용하는 방식SFCN (Scale Fusion Convol..
파워포인트 파일을 Python을 이용해 편집해야 하는 필요가 있어 방법을 찾아봤습니다. 유튜브나 블로그 글 가운데 관련 글이 많이 있더군요. 최근 내용을 보면 Microsoft에서 Office365와 함께 Copilot을 내놓으면서 그 기능을 활용하는 내용도 많이 보였습니다. 그러다 python을 이용해 ppt를 자동으로 생성하는 방법을 소개한 곳이 있었는데, 실무에 적용한 사례라 참고하기 좋아 보였습니다. 블로그) 코딩하는 인사팀 블로그) 파이썬으로 PPT 노가다 자동화 하기 파이썬으로 PPT 노가다 자동화 하기대부분의 HR 시스템에서 인사 프로필 출력기능을 제공하지만, 인사담당자로 일하다 보면 직원들의 프로필을 PPT로 직접 만들어야 할 때가 자주 있습니다. 승진 심사, 해외 주재원 선발, 임원 평..
최근에 새로 소개한 텍스트-음성 변환(TTS) 모델인 'Fish-Speech'를 로컬에서 테스트 해 보려고 합니다. 억양, 리듬이 적용되어 자연스런 음성을 만들 수 있다고 하기 때문입니다. 예전에 '책 읽어주는 부모' 였던가...AI로 부모의 목소리를 복제해서 아이에게 텍스트로 된 동화 책을 읽어주는 서비스가 있었던 걸로 압니다. 실제 그동안 다양한 음성복제(Voice Cloning) 모델이 나왔고 개중에는 상당히 괜찮은 것들도 있었죠.하지만, 시간도 장비도 없어서 해 볼 엄두를 못 내고 있었는데 이번에 시간이 좀 나서 해보려고 합니다. 환경구성저는 PC에서 우분투를 사용하고 있어서 바로 Conda를 이용해 환경 구성을 해 봤습니다. 환경 구성은 Fish-Speech의 깃헙에서 Local Infer..