AI 탐구노트

Google's Gemini 2.0의 Stream Realtime 본문

AI 기술

Google's Gemini 2.0의 Stream Realtime

42morrow 2025. 1. 21. 16:10

 

 

최근 Google이 발표한 Gemini 2.0의 Stream Realtime 기능은 AI와의 상호작용 방식을 혁신적으로 변화시키고 있습니다. 이 기능을 통해 사용자는 텍스트 입력을 넘어 음성 대화, 화면 공유, 웹캠 공유 등 다양한 방법으로 AI와 실시간 소통이 가능합니다. 이번 글에서는 Stream Realtime 기능을 실생활에서 어떻게 활용할 수 있는지 구체적인 사례를 통해 살펴보겠습니다.


지원되는 기능

  • 실시간 화면 공유 : 사용자는 자신의 화면을 AI와 실시간으로 공유할 수 있어, 마치 옆자리 동료와 소통하는 것처럼 즉각적인 도움을 받을 수 있습니다
  • 음성 대화 : 사용자는 음성으로 AI와 직접 대화할 수 있습니다.
  • 웹캠 공유 : 실시간 웹캠 영상을 AI에게 보여주며 질문하고 답변을 받을 수 있습니다.
  • 멀티모달 입력 처리 : 텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 정보를 동시에 처리할 수 있습니다.

실생활에 적용 가능한 시나리오

Gemini 2.0의 Stream Realtime 기능을 실생활에 적용할 수 있는 사용 시나리오는 다음과 같이 다양할 것 같습니다. 

  • 실시간 화면 공유를 통한 문제 해결
  • 음성 대화를 통한 자연스런 소통 
  • 모바일 환경에서의 웹캠 공유 
  • 개발자와의 협업 도구로서의 활용
  • 교육 분야에서의 활용

 

적용 사례 예시

위에서 언급한 시나리오대로 실제 적용한 사례가 영상으로 공유된 것이 있어 소개해 봅니다. 실시간 보이스 채팅, 피아노 악보를 분석해서 가르쳐 주는 피아노 교사 (Live Piano Teacher), 냉장고 안 영상 기반으로 요리 제안, 세탁물의 태그를 분석해서 가이드해 주는 등 정말 다양한 사례가 소개되고 있습니다. (소개글 링크)

그림 : Gemini 2.0 Stream Realtime을 적용한 재미난 사례 소개

 

 

위 사례 가운데 일부만 세부적으로 보면 다음과 같습니다. 

 

Live Code : 실시간 코드 튜터링 (영상)

화면 공유를 통해 개발 도구에서의 실시간 코딩 도우미 역할을 제공합니다. 전문가를 옆에 앉혀두고 개인교습을 받는 느낌이랄까... 영상에서는 좀 많이 간단한 코드라 훨씬 복잡할 경우에도 문제없이 대응이 될 것인지 궁금하긴 합니다. 하지만, 전체 코드를 직접 Gemini에게 작성토록 시키기도 하니 복잡한 경우라도 별반 차이없이 잘 지원하지 않을까 싶긴 합니다. 

그림 : 코드 도우미 역할로 활용하는 사례

 

 

AI 리서치 도우미 (영상)

PDF 혹은 웹사이트에서 논문을 열어 화면 상에 나오는 내용을 같이 봐가면서 도움을 받을 수 있습니다. 대화식으로 하게 되면 이해도가 많이 높아질 수 있을 것 같습니다. 참고로 아래 그림은 figure 1에 대한 질문을 음성으로 하고 음성으로 설명을 듣는 장면입니다. 

그림 : 논문 PDF를 열어두고 대화형으로 질의, 응답을 진행하는 데모

 

라이브 대화 (영상)

웹캠을 통한 주변 영상을 함께 보면서 대화를 나누는 예시입니다. 이것도 마찬가지로 음성을 이용하고 있습니다. (물론 텍스트도 됨)

그림 : Stream Realtime을 이용해 카메라 영상 기반 대화형

 


참고자료

  •  
  • 영상) 구글 AI 제미나이(gemini) 2.0 사용법 총정리(실시간 화면 공유, 음성 대화, 검색 기능 등) (유튜브)
  • 블로그) Building a Real-Time Video Chat with Gemini 2.0, Gradio, and WebRTC (링크)
    • Gemini 2.0의 멀티모달 라이브 API와 Gradio, WebRTC를 이용해 실시간 영상 채팅 웹앱을 만드는 과정을 설명합니다.