AI 탐구노트

AI 발전의 둔화, 데이터 부족이 원인? 본문

카테고리 없음

AI 발전의 둔화, 데이터 부족이 원인?

42morrow 2024. 12. 25. 10:28

 

요즘 AI 기술이 놀라운 속도로 발전하고 있지만, 한편으로는 중요한 과제가 점점 더 명확해지고 있습니다. AI가 앞으로도 진화하려면 NPU, GPU 같은 하드웨어뿐만 아니라, 고품질의 학습 데이터가 필수인데요, 그런데 지금 AI 개발자들 사이에서는 '데이터가 바닥을 보이고 있다'는 걱정이 커지고 있는 것이죠. 최근 보도된 오픈AI의 코드명 '오리온(Orion)'으로 알려진 GPT-5 개발이 예상보다 지연되고 있다는 소식도 이 때문일 것이라는 예상들도 나오고 있습니다. 

 

 

“오픈 AI, 새 모델 개발 지연···학습할 데이터 부족”

챗GPT 개발사 오픈AI의 차세대 주력 인공지능 모델 개발이 당초 목표보다 늦어지고 있다고 월스트리트저널(WSJ)이 22일 전했다. WSJ가 이날 여러 소식통을 이용해 보도한 내용에 따르면 오픈AI의 코

www.khan.co.kr

 

이번 글에서는 데이터 부족 문제와 이로 인해 AI 발전 속도가 둔화될 가능성, 그리고 이를 해결하기 위한 다양한 시도를 이야기해 보려고 해 보겠습니다. 

 

참고) 최근 공개된 것은 ChatGPT 'o3'입니다. 'o1'에서 'o2'를 거치지 않고 'o3'으로 넘어간 것은 영국의 통신회사인 'O2'와의 상표권 문제 때문이라고 합니다. 

 


데이터 부족, AI의 성장 발목을 잡다

GPT-5 개발 지연과 데이터 한계

기사를 보면, 오픈AI가 차세대 AI 모델인 GPT-5를 개발하면서 18개월 넘게 대규모 훈련을 진행했지만 기대만큼의 성과를 얻지 못했다고 합니다. GPT-4 이후 한 단계 도약한 모델을 만들기 위해 더 방대한 데이터와 더 많은 자원이 필요했는데, 데이터 확보 과정에서 여러 한계에 부딪혔다는 거죠. 마치... 심층신경망의 컨셉이 소개되고 나서도 한참동안 이를 이용한 기술 개발이 진전을 이루지 못했던 것이 이를 받쳐줄 하드웨어가 따라오지 못해서였다는 것과 비슷하다는 생각이 들기도 합니다. 

 

잘 알려진 바와 같이 AI가 학습하려면 뉴스, 소셜미디어 게시물, 과학 논문 등 다양한 고품질 데이터를 활용해야 합니다. 하지만 데이터량이 제한적이라 더 이상 기존 방식만으로는 충분히 진화할 수 없다는 우려가 나오고 있죠. 미국 AI 연구기관 에포크 AI는 2026년이면 고품질 언어 데이터가 고갈될 수 있다고 경고했고, 이는 AI의 발전 속도 둔화로 이어질 가능성이 높다고 합니다. (기사) OpenAI의 공동창업자였다가 최근 쫓겨난(?!) 일리야 슈츠케버가 '컴퓨터 연산 능력은 향상되고 있지만 데이터는 늘지 않고 있다. 우리가 가진 인터넷은 오직 하나 뿐이기 때문'이라고 한 말은 의미심장하지 않을 수 없습니다. 


데이터 확보를 위한 AI 업계의 노력

기존 방식의 한계와 새로운 시도

AI 기업들은 데이터 부족 문제를 해결하기 위해 다양한 노력을 기울이고 있습니다. 기존에는 인터넷에 공개된 데이터를 수집하는 방식이 주를 이뤘지만, 이 방식만으로는 한계가 있음을 깨닫고 있죠. 예를 들어, 오픈AI는 소프트웨어 엔지니어나 수학자들을 고용해 새로운 데이터를 직접 생성하기도 했습니다. 하지만 이런 방식은 시간과 비용이 많이 든다는 점에서 쉽지 않은 과제입니다.

 

한편, 빅테크 기업들은 언론사와 파트너십을 맺고 뉴스 콘텐츠를 확보하거나, 전문 데이터 제공업체와 협력해 데이터 품질을 높이는 데 집중하고 있는데, 구글, 마이크로소프트, 그리고 오픈AI 모두 다양한 방식으로 데이터 부족 문제를 해결하려 애쓰고 있지만, 여전히 부족함이 많다고 합니다. 또는 NVIDIA처럼 실제 세상과 유사한 가상의 세계를 만들고 그 속에서 데이터를 생성하려는 시도도 있습니다. 


휴머노이드 로봇과 멀티모달 데이터의 가능성

 

이런 가운데, 새로운 돌파구로 떠오른 것이 휴머노이드 로봇을 활용한 멀티모달 데이터 수집입니다. 휴머노이드 로봇은 사람과 비슷한 환경에서 다양한 센서를 통해 텍스트, 음성, 이미지, 동작 데이터를 동시에 수집할 수 있습니다. 이런 데이터는 AI의 학습 범위를 넓히고, 더 사람 같은 AI를 개발하는 데 큰 도움이 될 수 있습니다. 테슬라가 옵티머스, OpenAI가 Figure의 O2 휴머노이드을 이용해서 하려는 것 등이 대표적인 사례가 될 것 같네요.

 

로봇이 수집한 데이터는 기존 데이터의 빈틈을 메우고, 더 나아가 AI의 창의적 능력을 키우는 데 기여할 것으로 기대됩니다. 예를 들어, 로봇이 실제 환경에서 사람처럼 다양한 상황을 겪으며 얻는 데이터는 기존의 정적인 데이터셋보다 훨씬 풍부하고 다차원적인 정보를 제공할 수 있죠.


더 나아가야 할 방향

데이터 부족 문제를 해결하기 위해선, 단순히 데이터량을 늘리는 데서 그치지 않고 데이터의 품질에도 초점을 맞춰야 할 겁니다. AI 개발에 성공하려면 신뢰할 수 있는 데이터셋을 확보하는 것이 중요하죠.

 

김우승 크라우드웍스 대표는 “AI 프로젝트 성공의 열쇠는 데이터의 양적 확대보다 품질에 있다”고 강조했습니다. 클라우드웍스 자체가 AI 데이터 가공을 전문으로 하며 성장해왔기 때문에 자신있게 말할 수 있을 것이라 생각합니다. 비단 데이터의 품질이 중요하다는 언급은 실제로 AI 개발을 하는 많은 기업들에서도 동일하게 나오고 있습니다. () 이를 위해 기업과 연구자들은 데이터 저작권 문제를 해결하고, 더욱 효율적인 데이터 라벨링 시스템을 구축하며, 새로운 데이터를 생성하는 혁신적인 방법을 찾아야 할 것으로 생각됩니다.


결론 및 더 생각해보기

AI 발전 속도가 데이터 부족으로 둔화될 수 있다는 경고는, 우리가 AI 산업의 기반을 다시 한번 돌아보게 하는 계기가 됩니다. AI가 더 많은 가능성을 실현하려면 지금의 문제를 해결할 방안이 반드시 필요하기 때문입니다.

 

그렇잖아도 국내에서는 AI 기술 인력 및 AI 인프라의 부족으로 고전을 하고 있는 상황인데, 고품질 데이터의 부족까지 풀어야 할 숙제가 더 많아졌다는 생각이 들었습니다. 그나마 AI Hub 등을 운영하며 기초적인 데이터 수집을 해 온 경험이 있고, 그 과정을 겪으면서 정부나 기업들이 데이터 품질에 대한 시행착오를 겪어 어떻게 나아가야 할 지에 대한 인사이트가 생겼을 것이라 생각합니다. 

 

아무쪼록 앞서가는 글로벌 빅테크의 전략적 방향을 빨리 캐치해서 우리나라가 나름 강점을 가진 IT, 로봇, 가상데이터 생성(from 게임업체들?)을 최대한 활용할 수 있는 혁신적인 시도가 이뤄졌으면 좋겠습니다.