Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 이미지 편집
- 우분투
- 오블완
- 딥마인드
- javascript
- 일론 머스크
- tts
- 가상환경
- 시간적 일관성
- 서보모터
- AI
- OpenAI
- 티스토리챌린지
- 확산 모델
- AI 기술
- 뉴럴링크
- 트랜스포머
- 오픈AI
- ControlNet
- 생성형 AI
- LLM
- 멀티모달
- PYTHON
- ChatGPT
- 인공지능
- TRANSFORMER
- 메타
- 아두이노
- ubuntu
- LORA
Archives
- Today
- Total
AI 탐구노트
RobustL2S : 입모양을 보고 음성을 생성하는 모델 본문
소리가 포함되어 있지 않은 비디오 영상에서 사람의 입모양에 맞는 음성을 생성해내는 Lip to Speech 합성 모델
RobustL2S' 모델은 소리가 포함되어 있지 않은 비디오 영상에서 사람의 입모양에 맞는 음성을 생성해내는 Lip to Speech 합성 모델입니다.
소리를 듣지 못하는 청각장애인들이 상대방의 입모양을 봐가며 의사소통을 해야하는 경우가 있는데, 바로 그런 상황에서 활용할 수 있는 모델이라고 보시면 됩니다.예전에 기사에서 COVID 19 때문에 마스크 착용이 의무화되었을 때 사람들간의 의사소통에 어려움이 있었다는 기사를 본 적이 있는 것 같습니다. 아무래도 귀에 들리는 소리만으로 하는 의사소통보다는 상대의 입술 모양을 봐가며 하는 의사소통이 더 많은 정보를 전달할 수 있기 때문에 그런 것이 아닌가 생각해 봅니다.
RobustL2S 모델은 Lip 인코더와 Speech 인코더를 사용하여 Lip과 Speech의 SSL (Self-Supervised Learning) 표현을 추출합니다. 그런 뒤 Seq2Seq 모델로 입술 표현을 음성 표현에 매핑하고 이를 Speech 보코드로 최종 합성 음성을 만드는 식으로 진행됩니다.
아쉽게도 아직 실행코드는 공개되지 않았습니다.
'AI 기술' 카테고리의 다른 글
Comic Factory : 프롬프트 기반 코믹스 만화컷 생성 모델 (5) | 2024.09.02 |
---|---|
Dolma : 3조개의 토큰을 가진 데이터셋과 툴킷 (3) | 2024.09.02 |
Open Catalyst Project : 재생가능한 에너지 저장을 위한 촉매 모델링 (0) | 2024.09.01 |
VALL-E X : Cross-lingual 음성 합성 모델 (3) | 2024.09.01 |
FaceChain : 나만의 프로필 사진을 만들 수 있는 모델 (0) | 2024.08.31 |