AI 탐구노트

SignLLM : 다국어 수어 생성을 위한 대규모 언어 모델 본문

AI 기술

SignLLM : 다국어 수어 생성을 위한 대규모 언어 모델

42morrow 2024. 12. 4. 22:39

 

1. 서론

수어는 청각 장애인과 비장애인 간의 소통을 가능하게 하는 중요한 시각적 언어입니다. 수어 데이터를 연구하려면 영상에서 사람의 손, 팔, 얼굴 같은 움직임을 정확히 분석해야 하지만 이 과정은 복잡하고 시간이 많이 걸립니다. 게다가, 연구에 사용할 수 있는 수어 데이터의 양도 적어서 새로운 기술을 개발하거나 테스트하는 데 한계가 있죠. 그리고 대부분의 연구가, 독일 수어(GSL)나 미국 수어(ASL) 같은 특정 언어에 제한된 데이터셋을 주로 사용하며, 데이터의 비표준성과 수작업 주석의 비효율성으로 인해 확장이 어려웠습니다.

 

Prompt2Sign은 기존의 수어 데이터셋 문제를 해결하기 위해 영상 데이터를 표준화하고 자동화된 주석 생성 도구를 통해 8개 언어의 수어 데이터를 제공하는 첫 다국어 데이터셋입니다. 이번 글은 Prompt2Sign이라는 다국어 수어 데이터셋과 이를 활용한 최초의 다국어 수어 생성 모델 SignLLM에 대해 간략하게 알아보도록 하겠습니다. 

그림 : SignLLM 모델을 적용해 생성된 영상 예시

 

 

2. 본론

2.1. 기존 방식의 문제점

기존 수어 연구는 주로 단일 언어 데이터셋에 의존하며, 데이터 포맷의 비일관성과 수작업 주석의 시간 소모로 인해 다국어 확장이 어렵습니다. 주요 한계는 다음과 같습니다.

  • 데이터셋 간 표준화 부족으로 인한 훈련 데이터 활용성 저하
  • 수작업으로 진행되는 gloss 주석의 비효율성
  • 고비용으로 인해 데이터 확장이 제한됨

 

2.2. 접근 방식

 

우선 영상 데이터를 표준화하고 자동화된 주석 생성도구를 이용해 8개 언어를 지원하는 다국어 데이터셋인 Prompt2Sign라는 만들었고, 이 데이터셋을 이용해 수어 영상을 생성하는 SingLLM 모델을 개발했습니다. 

 

그림 : Prompt2Sign 데이터셋(왼쪽)과 SignLLM 구조 개요(오른쪽)

 

2.2.1.Prompt2Sign : 다국어 지원 수어 데이터셋

Prompt2Sign은 기존 문제를 해결하기 위해 다음과 같은 접근 방식을 채택했습니다.

  • 데이터 표준화 : OpenPose를 활용해 영상 데이터를 2D 관절 좌표로 변환하고 3D 포즈로 확장하여 모델 훈련에 적합하도록 처리
  • 자동화 도구 : 텍스트-텍스트 및 시퀀스-시퀀스 학습에 적합한 데이터 구조로 변환하는 자동화 도구 개발
  • 다국어 커버리지 : 미국 수어, 독일 수어 등 총 8개 언어를 포함하여 다국어로 확장함

2.2.2.SignLLM : 다국어 수어 생성을 위한 대규모 언어 모델

SignLLM은 이 데이터셋을 기반으로 다국어 수어 생성에서 새로운 패러다임을 제시합니다. SignLLM은 Prompt2Sign 데이터셋을 활용하여 다국어 수어 생성을 위한 첫 대규모 언어 모델로 설계되었습니다. 특히, 두 가지 모드(Multi-Language Switching Framework와 Prompt2LangGloss)를 통해 언어 간 혼란을 방지하며 사용자 친화적인 다국어 처리를 가능하게 합니다. 또한, 강화학습 기반 손실 함수를 활용해 훈련 시간을 대폭 단축하고 품질을 높이는 데 성공했습니다.

  • Multi-Language Switching Framework (MLSF) : 병렬적인 언어별 인코더-디코더 구조로 다국어 처리 가능
  • Prompt2LangGloss : 입력 텍스트를 중간 gloss로 변환 후 포즈를 생성하는 방식으로 복잡한 입력을 처리

 

2.3. 세부 적용 기술

  • 강화학습 기반 손실 함수
    • 강화학습(RL)을 활용해 데이터 샘플링 우선순위를 정하고 훈련 효율성을 개선합니다. 
    • Priority Learning Channel(PLC) 메커니즘으로 중요한 데이터에 모델의 학습을 집중합니다.
  • LangGloss 주석 시스템
    • 자동으로 언어 속성을 추가하여 언어 혼동을 방지합니다. (예) "<ASL_hello>" 형태로 언어 속성 부여
  • 3D 포즈 추출 
    • 영상 데이터를 2D 관절 좌표로 변환 후 3D 포즈로 재구성하며 손가락의 정확한 위치를 계산하여 더 자연스러운 수어 동작 생성합니다. 
  • 모델 구조 
    • 병렬 다국어 처리를 지원하는 인코더-디코더 아키텍처를 가지고 있습니다. 
    • 강화학습 기반 손실 함수를 통해 데이터 크기와 언어 수 증가에 따른 훈련 시간 문제를 해결합니다. 

 

2.4. 제약사항

 

Prompt2Sign과 SignLLM은 데이터의 자동화 처리 수준을 높였지만, 여전히 사용자가 직접 데이터를 준비(예: OpenPose로 키포인트 추출)해야 하는 점에서 완전한 자동화 솔루션은 아닙니다. 하지만, 이런 부분들은 향후 나와 있는 다른 기술들을 결합하면 상당부분이 해결될 것이라 생각됩니다. 


3. 결론

SignLLM은 다국어 수어 생성에서 중요한 기술적 진보를 이루었다고 할 수 있습니다. Prompt2Sign 데이터셋은 표준화와 자동화를 통해 기존 데이터셋의 한계를 극복했으며, SignLLM은 강화학습 기반 접근 방식으로 다국어 수어 생성을 효과적으로 지원하게 되었습니다. 

 

수어에 대한 해석과 수어영상의 자동화된 생성은 청각 장애인에겐 꼭 필요한 기술입니다. 하지만, 여러가지 기술적인 이슈로 인해 난항을 겪다 이제 새로운 돌파구가 생긴 듯한 느낌입니다. 이 기술이 좀 더 발전되어 수어교육, 실시간 방송통역 등 다양한 실생활의 응용 분야에 적용되었으면 좋겠다는 생각입니다. 


4.참고자료

 

 

SignLLM: Sign Languages Production Large Language Models

Acknowledgements We sincerely appreciate the previous work, open source tools, and researchers for underserved populations. We stand on the shoulders of their work to achieve further achievements. Readers can learn how we utilize and improve previous work

signllm.github.io

 

내 손안의 작은 수어 통역가 : HandTalker 

  • DEVOCEAN YOUNG 2기 404 팀 프로젝트라고 합니다. React로 프론트를, Spring으로 백엔드를 구성하고 영상 분석은 OpenCV, Mediapipe가 활용되었고 서버와 클라이언트 간 실시간 통신은 WebSocket을 사용했다고 합니다. 

 

 

GitHub - DEVOCEAN-YOUNG-404/HandTalker: 내 손 안의 작은 수어 통역가, HandTalker 👋🏻

내 손 안의 작은 수어 통역가, HandTalker 👋🏻. Contribute to DEVOCEAN-YOUNG-404/HandTalker development by creating an account on GitHub.

github.com

 

AI, 음성 듣고 자막에 수어까지 '바로바로' (YTN, 2021.4)

ETRI에서 개발했던 것인데 현재는 어느 단계에 와 있고 실제 상용화가 되었는지 궁금합니다. 2022년 3월 거리두기 지침 공유하는 쪽에 활용되고 있다는 기사(링크) 이후 이렇다 할 소식이 없는 것 같아서입니다. 당시 나왔던 글에서는 다음과 같이 적혀 있었습니다. 

"아바타 자동 수어의 경우, 아직 세계적으로 공식 사용화한 사례가 없다. 정부와 업계는 이르면 내년 상용화를 목표로 하고 있다."