AI 탐구노트

EDGS : 점을 뿌리는 새로운 방식으로 더 빠르게, 더 정밀하게 3D 복원하기 본문

AI 기술

EDGS : 점을 뿌리는 새로운 방식으로 더 빠르게, 더 정밀하게 3D 복원하기

42morrow 2025. 4. 23. 12:46

 

 

우리가 보는 세상을 컴퓨터가 3차원으로 다시 그릴 수 있게 하는 기술은 가상현실(VR), 자율주행, 게임, 디지털 영화 제작 등 다양한 분야에서 매우 중요합니다. 최근에는 'NeRF'라는 기술이 큰 인기를 끌었는데요, 이 기술은 2차원 이미지 몇 장만으로도 3차원 장면을 매우 정밀하게 재현할 수 있습니다. 다만, 학습 시간이 오래 걸린다는 단점이 있었습니다.

 

이를 해결하기 위해 최근에는 '3D 가우시안 스플래팅(3D Gaussian Splatting, 줄여서 3DGS)'이라는 새로운 방식이 나왔습니다. 이 방식은 장면을 여러 개의 작은 점(가우시안 덩어리)으로 구성해 매우 빠르게 3D를 재현할 수 있습니다. 하지만 이 방식도 문제가 있습니다. 처음에는 장면 전체를 표현하지 못해서, 점을 조금씩 추가하고 위치를 바꾸는 작업을 계속 반복해야 합니다. 이 때문에 여전히 학습 시간이 오래 걸리죠.

 

이러한 점을 근본적으로 바꾸는 방법이 제시되었습니다. 처음부터 충분한 수의 점들을 장면 전체에 뿌리고, 그걸 기반으로 빠르게 최적화하는 방법, EDGS가 그것입니다. EDGS는 천천히 점을 늘리는 게 아니라, 처음부터 필요한 만큼 다 배치하고 시작하는 접근법입니다.


 

EDGS (Eliminating Densification for Gaussian Splatting)

1) 기존 방식의 문제점

기존 3DGS는 처음에는 장면 일부만 표현하고, 이후 부족한 부분을 찾아 점을 더 추가하며 조금씩 완성해나갑니다. 마치 밑그림만 그린 뒤 조금씩 색칠을 하는 방식이죠. 이 과정은 시간이 오래 걸리고, 고해상도나 디테일이 많은 장면에서는 화질도 떨어질 수 있습니다.

 

2) 새로운 접근 방식

 

EDGS는 이런 복잡한 과정을 없앴습니다. 처음부터 장면 전체에 많은 점을 뿌려서, 전체를 한번에 표현할 수 있도록 시작합니다. 이 점들을 배치하기 위해, 여러 장의 사진에서 서로 대응하는 픽셀을 찾아내고, 이들을 3차원 공간에서 계산해 위치를 정합니다(삼각측량) 이렇게 하면 점들이 정확한 위치에 놓이기 때문에, 이후의 학습 과정도 빠르게 끝낼 수 있고, 품질도 더 좋습니다.

 

그림 : 기존 방식 vs EDGS 방식 비교

3) 세부 적용 기술

1️⃣ Dense 2D Correspondence Matching (사진 간 대응점 찾기)

  • 여러 장의 사진에서 서로 같은 물체를 가리키는 픽셀을 자동으로 찾습니다.
  • 이를 위해 RoMa와 같은 고성능 dense matching 네트워크를 사용합니다. 

2️⃣ 3D 위치 계산 (삼각 측량)

  • 찾은 대응점들을 이용해 점이 실제 3D 공간에서 어디에 있는지 계산합니다.
  • 이것은 카메라들이 보는 방향과 각도를 이용해 정확히 위치를 추정하는 과정입니다.

3️⃣ 색상과 크기 초기화

  • 계산된 위치의 점에 대해, 사진에서 보이는 색상을 평균내어 색을 정합니다. 
  • 가우시안의 크기는 카메라와의 거리 등을 기준으로 초기 설정합니다. 

3️⃣ Photometric Optimization (전체 최적화)

  • 초기화된 가우시안 집합은 기존 3DGS에서 사용되던 광학 손실 함수(photometric loss)를 통해 학습이 이루어집니다.
  • 초기 위치가 이미 정밀하므로 최적화 단계에서의 조정 폭이 줄어들고, 이는 수렴 속도의 비약적인 향상으로 이어집니다.

 

그림 : 카메라가 보지 못했던 각도에서의 비교 (3DGS vs EDGS)

 

 

위 그림은 '카메라가 촬영하지 않은 각도'에서 장면을 다시 그릴 때 기존 방식과의 차이를 보여줍니다. 기존 방식(좌)은 사진이 찍힌 부분 위주로 점을 심습니다. 그래서 카메라가 못 본 뒤쪽이나 모서리 부분은 점이 적거나 빠져 있어서 그 각도에서 보면 이상하게 보이거나 찌그러진 것처럼 나타날 수 있습니다. EDGS는 여러 시점에서 촘촘하게 정보를 수집해서 전체 장면에 점을 고루 배치하므로 어느 각도에서 보더라도 자연스럽고 깔끔하게 보입니다. 

 

그림 : 점의 움직임 비교 (3DGS vs EDGS)

 

위의 그림은 훈련 시 각 점 (가우시안: 3D 장면을 구성하는 가상의 입자들)이 얼마나 많이 이동하고 변하는지를 보여줍니다.

 

좌측 그림은 각점들의 움직임 정도를 보여 줍니다. 기존 방식이 이동 범위가 훨씬 넓은 것을 알 수 있죠. 우측 그림은 학습 시 각 점들이 얼마나 좋은 위치에 있었는지를 보여 주는데 EDGS 방식이 처음부터 거의 정답에 가까운 위치에서 시작함을 알 수 있습니다. 이 덕분에 빠르고 안정적인 학습이 가능해 집니다. 

 

4) 제약사항

  • 초기화 단계에서의 2D 매칭 품질에 따라 3D 초기화 품질이 결정되므로, 잘못된 매칭은 왜곡된 재구성으로 이어질 수 있습니다.
  • 반사면 등 시점에 따라 색상이 크게 달라지는 객체에서는 성능이 다소 저하될 수 있습니다.

 

EDGS는 기존 방식에서 가장 느리고 복잡했던 과정을 완전히 없앴습니다. 처음부터 충분한 정보를 갖고 시작해 빠르게 배우고, 더 좋은 품질의 결과를 만들어냅니다. 특히 가상현실, 자율주행, 로봇 등 빠르고 정밀한 3D 장면이 필요한 분야에서 큰 장점이 될 수 있습니다. 초기 점 배치 품질이 좋을수록, 더 나은 결과를 빠르게 얻을 수 있기 때문에 향후 더 발전 가능성도 큽니다.

 

실생활에서는 AR/VR 콘텐츠 제작, 로봇 비전, 디지털 문화유산 복원 등 고속 고정밀 3D 복원이 필요한 모든 분야에서 EDGS가 높은 효율을 보일 것으로 기대됩니다. 특히 초기화 품질이 더 개선된다면, 반사면이나 텍스처 복잡성이 높은 장면에서도 성능이 더욱 향상될 수 있습니다.

 


참고자료

  • 사이트) EDGS 프로젝트 사이트 (링크)
  • 논문) EDGS: Eliminating Densification for Efficient Convergence of 3DGS (링크)
  • 코드) EDGS Github Repository (링크)
  • 데모) EDGS Hugging Face space (링크)

Q&A

 

Q. EDGS는 어떤 방식으로 기존 3DGS의 느린 학습 속도를 해결하나요?

EDGS는 학습 초기에 모든 가우시안을 고밀도로 배치하여, 반복적인 밀집화 과정 없이 빠르게 최적화가 가능하게 만듭니다.

 

Q. EDGS가 기존 방법에 비해 품질에서도 더 뛰어난 이유는 무엇인가요?

픽셀 단위의 밀집 대응을 통해 장면 전체를 고르게 초기화하고, 고주파 영역에서도 세밀한 표현이 가능하기 때문입니다.

 

Q. 이 방식은 어떤 경우에는 성능이 떨어질 수 있나요?

반사나 투명한 재질처럼 색상이 시점에 따라 크게 변하는 경우, 색상 예측이 어려워 품질이 다소 떨어질 수 있습니다.

 

 

 

Figure 해설 (Fig. 1 중심)

  • 논문 Figure 1은 기존 방식(3DGS)이 적은 수의 가우시안으로 시작해 점진적으로 추가하는 과정과, EDGS가 한 번에 장면 전역에 고밀도로 초기화하는 차이를 보여줍니다.
  • 결과적으로, EDGS는 기존보다 훨씬 빠른 시간 내에 Ground Truth에 가까운 재구성 품질을 달성하며, 전체 가우시안 수도 약 60%로 줄일 수 있었습니다.