딥러닝 기반 화질 개선 이미지를 활용한 저자원 실내 환경 3차원 재구성: 3D Gaussian Splatting 적용 사례
3D Reconstruction of Low-Resource Indoor Environments Using Deep Learning-Based Image Enhancement: A Case Study of 3D Gaussian Splatting
Article information
Abstract
본 연구에서는 딥러닝 기반 화질 개선이 저자원 실내 환경에서 3D Gaussian Splatting을 활용한 3차원 장면 재구성의 적용 가능성을 향상시킬 수 있는지 분석한다. 3D Gaussian Splatting은 다중 시점의 고해상도 이미지를 이용할 경우 높은 품질의 3차원 재구성을 제공하지만, 개도국을 포함한 많은 실내 모니터링 환경에서는 저가형 CCTV와 IP 카메라가 주로 사용되어 블러, 손실 압축, 해상도 저하 등 다양한 화질 열화가 발생한다. 실제 저화질 영상에서는 같은 장면의 고화질 참조 영상이 존재하지 않는 경우가 많기 때문에, 본 연구에서는 비교 가능성을 확보하기 위해 우선 일반적인 실내 장면을 고정형 카메라와 모바일 기기로 다중 시점 촬영하여 고화질 원본 이미지를 구축하고, 여기에 가우시안 블러, 손실 압축, 크롭을 서로 다른 수준으로 적용하여 동일 장면에 대한 저하 이미지 집합을 의도적으로 생성하였다. 이후 사전 학습된 딥러닝 기반 화질 개선 모델을 이용해 저하 이미지를 복원함으로써, 동일한 장면에 대해 △고화질 원본, △저하, △저하+개선의 세 조건을 구성하고, 각 조건에 대해 3D Gaussian Splatting 파이프라인을 적용하여 3차원 재구성을 시도하였다. 평가는 각 조건에서 재구성이 성공했는지 실패했는지의 여부에만 초점을 두어 성공률을 비교하였다. 이러한 결과는 개도국이나 인프라가 열악한 지역에서도 기존 저해상도 카메라 인프라를 유지한 채, 소프트웨어 기반 화질 개선과 3D Gaussian Splatting을 결합함으로써 실내 3차원 모델링과 안전 모니터링 수준을 향상시킬 수 있는 적정기술적 가능성을 시사한다.
Trans Abstract
This study investigates whether deep learning–based image enhancement can improve the applicability of 3D Gaussian Splatting for three-dimensional scene reconstruction in low-resource indoor environments. 3D Gaussian Splatting provides high-quality 3D reconstructions when high-resolution, multi-view images are available; however, many indoor monitoring environments, including those in developing countries, mainly rely on low-cost CCTV and IP cameras, which suffer from various forms of image degradation such as blur, lossy compression, and reduced resolution. Because high-quality reference images of the same scene are often unavailable in real low-quality video, we first acquired highquality original images by capturing typical indoor scenes from multiple viewpoints using a fixed camera and a mobile device, and then deliberately generated a set of degraded images of the same scenes by applying Gaussian blur, lossy compression, and cropping at different levels. Using a pre-trained deep learning–based image enhancement model, we restored the degraded images to construct three conditions for each scene: high-quality original, degraded, and degradedplus-enhanced images, and applied the 3D Gaussian Splatting pipeline to attempt 3D reconstruction under each condition. The evaluation focused solely on whether reconstruction succeeded or failed for each condition, and compared the corresponding success rates. The results suggest that, even in developing countries or regions with poor infrastructure, it may be possible to improve indoor 3D modeling and safety monitoring by combining software-based image enhancement with 3D Gaussian Splatting while retaining existing low-resolution camera infrastructure, highlighting the potential of this approach as an appropriate technology.
Introduction
실내 공간을 정밀하게 이해하고 모니터링하기 위한 3차원(3D) 장면 재구성(3D reconstruction) 기술에 대한 수요는 디지털 트윈, 증강·가상현실(AR/VR), 스마트 빌딩, 안전 모니터링 등 다양한 분야에서 꾸준히 증가하고 있다(Son et al., 2021; Zhang et al., 2023). 기존에는 영화나 광고 산업에서와 같이 다수의 카메라를 일정한 배열로 설치하고 동기화 하여, 이른바 ‘벌릿 타임(bullet time)’ 방식으로 수십·수백 개 시점의 영상을 확보한 뒤 3D 장면을 재구성하는 방식이 널리 사용되었다. 그러나 이러한 방식은 고가의 카메라를 대량으로 설치해야 하고, 촬영 환경을 정교하게 제어해야 하며, 설치·유지 비용이 매우 크다는 한계를 지닌다.
최근에는 신경 복사장(Neural Radiance Field, NeRF)과 3D Gaussian Splatting과 같은 신경 렌더링(Neural Rendering) 기반 기법이 등장하면서, 비교적 소수의 2차원 이미지만으로도 고품질의 3차원 장면을 재구성하는 것이 가능해지고 있다. 특히 3D Gaussian Splatting은 연속적인 3차원 가우시안 분포를 이용해 기하와 광학 정보를 함께 표현함으로써, NeRF 계열 기법에 비해 학습 및 렌더링 속도가 빠르면서도 높은 시각적 품질을 제공하는 것으로 알려져 있다 (Kerbl et al., 2023). 이러한 특성 덕분에, 고가의 멀티카메라 장비 없이도 일상적인 촬영 환경에서 얻은 영상으로 3D 장면을 복원하려는 시도가 활발히 이루어지고 있다(Kleinbeck et al., 2024; Park et al., 2022).
이러한 기술적 흐름은 선진국의 대형 인프라뿐 아니라, 개발도상국이나 저자원 환경에서의 적정기술(appropriate technology) 관점에서도 의미가 있다. 많은 개도국 및 인프라 취약 지역에서는 고해상도 카메라나 전문 3D 스캐너를 널리 보급하기 어렵고, 전력·네트워크·보안 인프라의 제약으로 인해 고급 장비 도입이 쉽지 않다. 반면, 이미 설치되어 있는 저가형 CCTV, IP 카메라, 웹캠, 모바일 기기 등은 비교적 널리 이용되고 있다. 이때 기존 저해상도 카메라 인프라를 유지하면서도, 소프트웨어적인 처리만으로 3차원 정보까지 확보할 수 있다면, 안전 모니터링, 교육, 의료·돌봄, 환경 관리 등 다양한 분야에서 현실적인 적정기술 대안이 될 수 있다(Balado et al., 2025).
그러나 이러한 기술적 진전은 대체로 충분한 화질과 시점 다양성을 갖춘 데이터셋을 전제로 논의되어 왔으며, 저가형 CCTV·IP 카메라에 의존하는 저자원 실내 환경에서 딥러닝 기반 화질 개선과 3D Gaussian Splatting을 결합했을 때 실제로 어느 수준까지 3차원 재구성이 가능한지에 대한 체계적인 분석은 부족하다. 본 연구는 이러한 공백을 보완하기 위하여, 다음과 같은 두 가지 연구 질문에 초점을 맞춘다.
1) 동일한 실내 장면에 대해 고해상도 원본 이미지와 인위적으로 열화된 저해상도 이미지를 비교했을 때, 3D Gaussian Splatting의 재구성 성공 여부는 어떻게 달라지는가?
2) 저해상도 이미지를 딥러닝 기반 화질 개선 모델을 통해 복원한 뒤 3D Gaussian Splatting에 적용하면, 원본·저하 조건에 비해 재구성 성공률이 얼마나 변화하는가?
Related Work
1. 영상 화질과 3D Gaussian Splatting
3D 신경 렌더링 기법의 성능은 기본적으로 시점 다양성(view diversity)과 픽셀 수준의 세부 정보에 크게 의존한다. 서로 다른 시점의 이미지가 충분히 확보되지 않으면 가려진 영역(occlusion)에 대한 정보가 부족하여 구조가 무너지기 쉽고, 해상도가 낮거나 블러가 심한 영상에서는 경계 및 텍스처 정보가 손실되어 기하 구조와 재질 정보를 동시에 학습하기 어렵다. 3D Gaussian Splatting 계열 방법은 입력 이미지의 색상·밝기 변화와 카메라 포즈를 바탕으로 가우시안 입자의 위치, 크기, 불투명도, 색 등을 최적화하므로, 입력 영상의 화질 저하는 곧바로 학습 안정성과 최종 재구성 결과에 영향을 미친다(Ying et al., 2023). Figure 1은 3D Gaussian Splatting에 대한 개념을 설명한 그림이다.
실제 실내 모니터링 및 관제 환경에서 사용되는 카메라들은 저장 용량, 네트워크 대역폭, 설치 비용 등의 제약으로 인해 고해상도·무압축 영상을 제공하지 못하는 경우가 많다. 개도국이나 농어촌·도서 지역과 같이 인프라가 취약한 환경에서는 저해상도, 강한 손실 압축, 광학적 블러(저가 렌즈, 흔들림), 조명 불균일 등이 동시에 나타나는 경우도 흔하다. 이런 조건에서 획득되는 영상은 인간의 눈으로 보더라도 흐릿하거나 잡음이 많으며, 동일한 장소를 다시 고화질로 촬영하기도 어렵다. 이때 “현재 수준의 영상 품질로 3D Gaussian Splatting이 제대로 동작할 수 있는지”, “어느 정도의 화질까지는 재구성이 가능한지”를 파악하는 것은, 시스템 설계 및 장비 교체 여부를 결정하는 데 직접적인 기준이 될 수 있다(Gaya-Morey et al., 2024).
2. 딥러닝 기반 화질 개선과 한계
딥러닝 기술의 발전과 함께 초해상도(super-resolution), 디블러링(deblurring), 압축 아티팩트 제거(artifact removal), 노이즈 제거(denoising) 등 다양한 영상 화질 개선 기법이 제안되었고, 상용 서비스에도 널리 도입되고 있다. 사전 학습된 모델을 이용하면 저해상도 영상을 고해상도로 확대한 뒤 세부 텍스처를 보완하거나, 블러·압축으로 인해 손상된 경계를 복원하고, 노이즈를 억제하는 것이 가능하다. 이러한 기술은 고가의 카메라나 촬영 환경을 갖추지 못한 상황에서 소프트웨어적인 방법으로 영상 품질을 끌어올릴 수 있는 수단이기 때문에, 저자원 환경과 적정기술 관점에서 특히 매력적이다.
그러나 딥러닝 기반 화질 개선이 항상 “원래 장면에 더 가깝게” 복원해 주는 것은 아니다. 모델은 학습 데이터에 기반해 통계적으로 그럴듯한 디테일을 생성하기 때문에, 실제로 존재하지 않았던 질감이나 패턴을 새로 만들어 내는 이른바 Hallucination 현상이 발생할 수 있다. 2D 이미지 품질 관점에서는 이것이 오히려 시각적으로 자연스러워 보일 수 있으나, 3D 재구성 관점에서는 픽셀 수준의 왜곡과 불일치가 누적되어 기하 구조 추정에 혼란을 줄 가능성이 있다. 따라서 화질 개선을 적용할 경우, 인간이 보기엔 더 좋아 보이지만 3D Gaussian Splatting 입장에서는 오히려 학습이 어려워지는 상황도 발생할 수 있다(Cohen et al., 2024).
게다가 실제 저화질 CCTV나 IP 카메라 환경에서는 동일한 장면에 대한 고해상도 참조 영상이 존재하지 않는 경우가 많다. 즉, “저화질 → 화질 개선 → 3D 재구성” 결과가 좋아 보이더라도, 이것이 정말로 고화질 영상에서의 3D 재구성 결과와 얼마나 유사한지 정량적으로 비교하기 어렵다. 이러한 이유로, 화질 개선이 3D Gaussian Splatting에 미치는 영향을 엄밀하게 분석하기 위해서는 동일한 실내 장면에 대해 고화질 원본, 인위적 저화질, 저화질+화질 개선의 세 조건을 인위적으로 구성하여 비교하는 실험 설계가 필요하다(Xiang et al., 2025).
3. 본 연구의 차별성
기존 연구들은 주로 NeRF 및 3D Gaussian Splatting의 구조적 특성, 렌더링 속도, 고해상도 데이터셋에서의 화질 지표(PSNR, SSIM 등)에 집중해 왔다. 일부 연구에서 노이즈나 해상도 저하에 대한 강인성을 언급하기는 하지만, 다양한 유형의 화질 열화를 체계적으로 제어하고, 그 위에 딥러닝 기반 화질 개선을 적용한 뒤, 3D 재구성의 성공 여부 자체를 중심으로 비교·분석한 사례는 드물다. 특히, 개도국이나 저자원 환경을 고려하여 “기존 저가 카메라 인프라에 소프트웨어적 화질 개선과 3D Gaussian Splatting을 결합했을때 어느 정도 실효성이 있는지”를 검증한 연구는 거의 보고되지 않았다.
Methodology
1. 연구 범위 및 실험 설계
본 연구는 위 질문에 답하기 위해, 동일한 실내 장면에 대해 세 가지 조건(고화질 원본, 인위적 저화질, 인위적 저화질+딥러닝 화질 개선)을 구성하고 3D Gaussian Splatting 재구성 결과를 비교하는 실험적 연구를 수행하며, 전체적인 개념은 Figure 2에서 확인할 수 있다. 구체적인 절차는 다음과 같다. 일반적인 실내 공간(예: 연구실, 실습실 등)에 책상, 의자, 전자기기, 인체 모형 또는 사람이 포함된 장면을 구성하고, 고정형 카메라와 모바일 기기를 이용해 다중 시점에서 고해상도 이미지를 촬영한다. 이로써 대상 장면에 대한 고화질 원본 멀티뷰 데이터셋을 확보한다. 확보된 고화질 원본 이미지에 대해 가우시안 블러, 손실 압축, 크롭 등 여러 형태의 화질 열화를 서로 다른 강도로 인위적으로 적용하여, 동일 장면에 대한 저하 이미지셋을 생성한다. 이렇게 하면 원본과 저하 영상이 1:1로 대응되므로, 화질 열화 수준과 재구성 결과를 공정하게 비교할 수 있다. 저하 이미지셋에 사전 학습된 딥러닝 기반 화질 개선 모델을 적용하여, 저하+개선 이미지셋을 생성한다. 이로써 동일 실내 장면에 대해 “원본 / 저하 / 저하+개선”이라는 세 가지 입력 조건이 확보된다.
세 조건 각각을 3D Gaussian Splatting 파이프라인에 입력하여 3차원 장면 재구성을 시도하고, 재구성 성공 여부를 기준으로 결과를 비교한다. 이때 평가는 포인트 클라우드의 세부 품질이나 화질 지표가 아닌, “안정적인 3D 장면이 형성되었는지 여부”에 초점을 두어 성공/실패를 판정한다.
즉, 본 연구의 핵심은 고화질·저화질·개선 영상 간의 상대적 비교이며, 실제 CCTV 환경에서 고화질 참조 영상이 없다는 한계를 보완하기 위해 실험적으로 완전히 동일한 장면에 대해 세 조건을 의도적으로 구성했다는 점에 있다. 이를 통해 “만약 같은 장면을 진짜 고화질 카메라로 찍을 수 있었다면, 저화질+화질 개선의 3D 재구성 결과가 어느 정도까지 근접할 수 있는가?”라는 질문에 간접적으로 답하려고 한다.
2. 실험 시나리오 및 실내 환경
본 연구는 실제 요양시설이나 병실 CCTV 환경을 직접 촬영하기보다는, 이와 유사한 상황을 통제된 조건에서 재현하기 위해 대학 연구실에서 수행되었다. 실험 장소는 제주대학교 공학4호관 D405호 연구실로, 책상, 의자, 모니터, 책장, 각종 공학 장비 등을 배치한 일반적인 실내 환경을 구성한 뒤, 연구원이 바닥에 쓰러진 상태를 연출하여 낙상 상황을 가정하였다. 이러한 장면 구성은 요양시설이나 고령자 주거 공간에서 발생할 수 있는 낙상 사고를 저가형 카메라로 모니터링하고, 사고 발생 후 해당 시점의 공간 상황을 3차원으로 복원해 분석한다는 응용 시나리오를 염두에 둔 것이다.
3. 카메라 구성 및 원본 멀티뷰 데이터셋 확보 및 인위적 화질 열화
이미지 취득을 위해 연구실 내부에는 저가형 CCTV와 유사한 조건을 모사하는 고정형 카메라와, 상대적으로 고해상도 기준 영상을 제공하는 스마트폰 카메라가 함께 사용되었다. 고정형 카메라는 Arducam 1080P Low Light Wide Angle USB Camera Module(B0200)을 채택하였으며, 해상도는 1920×1080으로 설정하였다. 이 카메라는 라즈베리파이 4에 연결된 USB 허브를 통해 최대 12대까지 동시에 제어되었고, 촬영된 영상과 이미지는 라즈베리파이에서 클라우드 저장소(Google Drive)로 전송되도록 구성하였다. 카메라는 연구실 천장과 벽면 상부에 장면을 둘러싸는 형태로 설치되어, 낙상 위치를 중심으로 서로 다른 시점에서 장면을 관찰할 수 있도록 하였다. 한 장면에 대해 12대의 카메라가 동시에 촬영을 수행하였고, 낙상 자세나 주변 배치에 약간의 변화를 주며 총 11가지 경우에 대해 반복 촬영함으로써, 고정형 카메라 기준 총 132장의 원본 이미지를 확보하였다.
스마트폰 카메라는 iPhone 16 Pro를 사용하였고, 4032×3024 해상도의 Ultra-Wide 모드로 촬영하였다. 연구원이 직접 스마트폰을 들고 연구실 내부를 걸어 다니면서 사람 눈높이와 유사한 위치에서 장면을 둘러보는 시점을 기준으로 촬영하였으며, 대표적인 12개 위치에서 한 장씩 촬영하여 총 12장의 고해상도 이미지를 얻었다. 이 스마트폰 이미지들은 이후 분석에서 고정형 카메라 영상과 비교할 수 있는 고해상도 기준(reference) 데이터로 사용되었다. 결과적으로, 고정형 카메라에서 132장, 스마트폰에서 12장의 이미지를 확보하여 총 144장의 원본 이미지 데이터셋을 구성하였으며, 이후 모든 화질 열화 및 개선, 3D 재구성 실험은 이 원본 데이터셋을 출발점으로 수행되었다. 본 실험에서 이미지 획득에 사용된 장치에 대한 상세한 사양은 Table 1과 같다.
4. 인위적 화질 열화 및 딥러닝 기반 화질 개선
실제 CCTV 환경에서는 동일한 장면에 대해 고해상도·저해상도 영상을 동시에 얻기 어렵기 때문에, 저화질 영상에 대한 화질 개선 효과를 정량적으로 비교하기가 쉽지 않다. 이를 보완하기 위해 본 연구에서는 우선 연구실에서 고해상도 원본 이미지를 확보한 뒤, 동일한 장면에 대해 다양한 수준의 인위적 화질 열화를 가해 저해상도 이미지를 생성하는 방식을 취했다. 이렇게 생성된 저하 이미지는 각 원본 이미지와 1:1로 대응되므로, 이후 딥러닝 기반 화질 개선과 3D Gaussian Splatting 재구성 결과를 조건별로 공정하게 비교할 수 있다. 데이터셋 구축과 관련하여 상세한 내용은 Figure 3과 같다.
인위적 화질 열화는 크게 손실 압축, 가우시안 블러, 크롭 세 가지 유형으로 구성되었다. 손실 압축은 CCTV 시스템에서 흔히 사용되는 강한 압축 환경을 모사하기 위해 JPEG 품질 계수를 단계적으로 낮추는 방식으로 적용하였으며, 품질을 10%, 20%, 30%, 40%, 50% 등 여러 수준으로 설정하여 압축율이 높아질수록 블록 노이즈와 계단 현상이 두드러지는 조건을 만들었다. 가우시안 블러는 카메라 초점 실패, 저가 렌즈, 손떨림 등에 의해 발생하는 흐릿한 영상을 재현하기 위해 사용되었고, 3×3에서 35×35에 이르는 서로 다른 커널 크기를 적용하여, 커널 크기가 커질수록 물체 경계와 텍스처가 급격히 소실되는 상황을 만들었다. 크롭은 전체 화각 중 사람을 중심으로 한 일부 영역만을 남기는 상황을 가정한 것으로, YOLO v11 기반 사람 검출 결과를 이용해 검출된 사람 주변을 일정 여유 범위를 두고 잘라내는 방식으로 수행되었다. 이 크롭 연산은 인물 주변의 상대적인 해상도는 유지하거나 오히려 강조하면서, 벽, 문, 주변 가구 등 전체 공간 구조에 대한 정보는 줄어드는 효과가 있다. 손실 압축과 블러, 크롭의 조합을 포함하여 각 원본 이미지마다 최대 22가지 형태의 저하 이미지를 생성하였으며, 이를 통해 3D Gaussian Splatting이 견딜 수 있는 화질 열화의 범위를 넓게 탐색할 수 있도록 하였다.
이렇게 생성된 저하 이미지는 데이터바우처 사업을 통해 SK텔레콤이 제공한 딥러닝 기반 화질 개선 서비스인 메타러너(Meta Learner)에 입력하여 화질 개선 과정을 거쳤다. 메타러너는 사전 학습된 딥러닝 모델을 이용해 입력 영상의 해상도와 선명도를 향상시키는 상용 엔진으로, 초해상도, 노이즈 제거, 압축 아티팩트 제거 등의 기능이 통합된 형태로 동작한다. 본 연구에서는 메타러너 내부의 네트워크 구조나 학습 방법을 새로 설계하거나 수정하지 않았으며, 서비스에서 제공하는 기본 설정을 그대로 사용하였다. 본 연구에서는 딥러닝 기반 화질 개선 모델의 정량적 성능 평가보다는, 3D Gaussian Splatting에 미치는 영향 분석에 초점을 두었다. 따라서 대표적인 장면에 대해 원본–열화–개선 이미지를 고해상도(원본 해상도)로 비교하여, 경계부 선명도와 질감 표현이 시각적으로 향상되는지를 우선적으로 확인하였다. 이러한 예시는 본문 Figure 4의 고해상도 그림에서 육안상으로 확인할 수 있다.
화질 개선의 목표는 단순한 해상도 확대보다는, 화질 열화 과정에서 손상된 경계와 텍스처 정보를 회복하면서도 장면의 전반적인 컨텍스트를 보존하는 데 있었다. 다시 말해, 사람의 위치, 책상과 의자 및 모니터의 배치, 방의 형태 등 공간 구성 요소는 유지한 상태에서, 가우시안 블러와 손실 압축으로 인해 뭉개진 픽셀 수준의 디테일을 보완하는 방향으로 화질 개선이 이루어지도록 하였다. 저하된 CCTV급 영상(1920×1080)을 입력한 경우에는 개선 결과가 업스케일된 해상도로 반환되었고, YOLO 기반 크롭 이미지의 경우에도 약 2배 수준의 해상도 향상과 함께 세부 텍스처가 복원된 형태의 결과를 얻을 수 있었다. 아이폰 원본 이미지 역시 크롭된 영역을 대상으로 화질 개선을 수행한 결과, 인물 주변 및 주요 객체의 디테일이 강화된 이미지를 확보할 수 있었다. 이 과정을 통해 각 장면과 시점에 대해 고해상도 원본, 인위적 저하, 저하+메타러너 개선이라는 세 가지 버전의 이미지 집합이 최종적으로 구성되었다.
5. 3D Gaussian Splatting 적용
3차원 장면 재구성에는 제안한 3D Gaussian Splatting 기법의 공개 구현체를 사용하였다. 이 구현체는 입력으로 주어진 다중 시점 이미지를 바탕으로 카메라 포즈를 추정하고, 장면을 설명하는 3차원 가우시안 입자의 위치, 크기, 색, 불투명도를 최적화하여, 임의의 시점에서의 렌더링을 가능하게 한다. 본 연구의 목표는 3D Gaussian Splatting의 성능 향상이나 알고리즘 제안이 아니라, 입력 영상의 화질 조건에 따라 “재구성이 가능한지 여부”를 살펴보는 것이었기 때문에, 공개 구현체에서 제공하는 일반적인 설정을 크게 변경하지 않고 사용하였다. 각 장면에 대해 고해상도 원본 이미지 집합만을 입력으로 사용하는 경우, 인위적 저하 이미지 집합만을 사용하는 경우, 저하 이미지에 메타러너를 적용한 개선 이미지 집합만을 사용하는 경우를 별도의 실험 케이스로 구성하였다. 모든 케이스에서 동일한 장면과 동일한 시점 수를 유지하였으며, 오직 입력 이미지의 화질과 내용만이 달라지도록 하여, 3D Gaussian Splatting 관점에서 입 화질이 재구성 가능성에 미치는 영향을 비교할 수 있도록 하였다.
재구성 결과에 대한 평가는 단순한 이분법적 기준으로 수행하였다. 3D Gaussian Splatting 학습이 정상적으로 완료되고, 해당 장면에 대한 3차원 포인트 클라우드와 그로부터 생성된 렌더링 이미지가 존재하며, 시점을 회전·이동했을 때 공간 구조를 파악할 수 있는 수준의 3D 모델이 형성된 경우를 재구성 성공으로 정의하였다. 반대로, 학습 과정에서 수렴하지 못하고 비정상적으로 종료되거나, 학습은 완료되었으나 포인트 클라우드가 거의 형성되지 않아 사실상 3차원 모델이라고 부르기 어려운 결과만 나온 경우는 재구성 실패로 간주하였다.
본 실험에서 3D Gaussian Splatting을 위해 사용한 PC의 사양은 Table 2와 같다. 해당 PC는 일반적인 연구자들이 충분히 갖출 수 있는 사양임을 확인할 수 있다.
Results and Discussion
본 절에서는 연구실 환경에서 취득한 멀티뷰 이미지를 대상으로,
① 원본 고해상도 이미지,
② 인위적으로 화질을 열화시킨 저하 이미지,
③ SKT 메타러너를 이용해 화질을 개선한 이미지
에 대해 3D Gaussian Splatting을 적용했을 때의 재구성 성공 여부를 비교한 결과를 제시한다. 본 연구에서는 3D Gaussian Splatting 기반 재구성의 성공/실패를 다음과 같이 정의하였다. 우선 학습 과정에서 손실 함수가 발산하거나 비정상적으로 종료되지 않고, 설정한 학습 조건 하에서 수렴하여 3D 재구성에 성공할 경우를 “성공”으로 의도한 대로 학습이 진행되지 못하여 3D 재구성에 실패할 경우를 “실패”로 간주하였다. 각 조건별 성공·실패 사례를 Figure 5와 Figure 6에서 사례와 함께 정리하였다.
1. 원본 및 화질 열화 이미지의 재구성 결과
우선 고정형 카메라와 스마트폰으로 취득한 원본 고해상도 이미지 집합만을 사용한 경우, 거의 모든 장면에서 3D Gaussian Splatting이 안정적으로 포인트 클라우드를 생성하여 재구성에 성공하였다. 연구실 상부와 측면에 설치된 고정형 카메라 영상만으로도 벽, 바닥, 책상, 의자, 모니터, 인체 등의 기본 구조가 무리 없이 재현되었고, 스마트폰 기반 멀티뷰 이미지에서도 연구실 공간의 전반적인 레이아웃과 낙상 위치가 명확히 드러나는 3차원 모델을 얻을 수 있었다.
이에 비해, 손실 압축·가우시안 블러·크롭을 적용한 저하 이미지 집합만을 사용한 경우에는 재구성 성공 사례가 눈에 띄게 줄어들었다. 압축 수준과 블러 강도가 낮은 일부 조건에서는 여전히 포인트 클라우드가 형성되어 장면의 대략적인 윤곽을 파악할 수 있었지만, 열화 수준이 일정 이상으로 높아지면 성공 사례가 급격히 줄어들었다. 특히 고정형 카메라 기반 CCTV 시나리오에서는 강한 블러와 고압축이 결합된 조건에서 3D Gaussian Splatting이 거의 재구성에 실패하는 양상을 보였다. 크롭이 적용된 경우에는 인물 주변의 일부 구조만 재구성되고 전체 실내 공간이 끊어지는 경우가 많아, “공간 전체를 하나의 3차원 장면으로 복원”한다는 관점에서는 성공 사례가 제한적이었다.
2. 딥러닝 기반 화질 개선 이미지의 재구성 결과
2차원 영상 차원에서의 화질 개선 효과는 분명하게 관찰되었다. Blur와 압축으로 인해 흐릿하고 거칠던 경계가 개선 이미지에서는 비교적 또렷하게 나타났고, 인물 실루엣과 책상·모니터 등의 윤곽선이 강화되었다. 이는 메타러너와 같은 딥러닝 기반 화질 개선 기법을 이용하면, 저해상도 CCTV 영상이라 하더라도 사후 분석용 스틸 프레임 수준에서는 충분히 활용 가능한 화질로 끌어올릴 수 있음을 보여준다.
이러한 개선 이미지를 3D Gaussian Splatting의 입력으로 사용하는 것 자체는 가능하다는 점이 확인되었다. 실제로 그림에 제시된 결과에서 볼 수 있듯이, 일부 장면과 조건에서는 메타러너로 복원된 이미지만을 입력으로 사용했음에도 포인트 클라우드가 형성되어 3차원 장면이 재구성되었다. 이 경우, 인위적 저하 이미지만을 사용했을 때보다 구조가 더 또렷하게 나타나고, 블러로 인해 무너졌던 경계가 어느 정도 복원된 형태의 3차원 결과를 얻을 수 있었다. 즉, “딥러닝 기반 화질 개선 → 3D Gaussian Splatting”이라는 파이프라인이 원칙적으로 동작한다는 사실은 실험을 통해 확인되었다.
그러나 재구성 성공 확률 측면에서는 메타러너 적용 후 성공 사례 수가 전반적으로 감소하는 경향이 관찰되었다. 원본 이미지나 단순 열화 이미지에 비해, 메타러너로 복원한 이미지를 입력으로 사용했을 때 3D Gaussian Splatting이 전혀 포인트 클라우드를 형성하지 못하고 실패로 끝나는 케이스가 적지 않았다. 특히 고정형 CCTV 시나리오에서 이 현상이 뚜렷하게 나타났으며, 일부 조건에서는 열화 이미지만 사용했을 때 간신히 재구성에 성공하던 장면조차, 화질 개선 후에는 아예 재구성이 이루어지지 않는 사례도 있었다.
이러한 결과는, 메타러너가 2차원 영상의 품질을 향상시키는 과정에서 프레임 내부 픽셀 간의 관계를 재구성하거나 새로운 텍스처를 “추가로 생성”함으로써, 서로 다른 시점 간의 멀티뷰 일관성을 부분적으로 깨뜨렸을 가능성을 시사한다. 다시 말해, 각 프레임을 개별적으로 보면 더 선명하고 자연스러워 보이지만, 3D Gaussian Splatting이 요구하는 “시점 간 대응 관계”의 관점에서는 오히려 픽셀 패턴이 어긋나면서, 3차원 장면을 안정적으로 추정하기 어려운 상황이 발생했을 수 있다. 본 연구에서는 내부 네트워크가 블랙박스로 제공되었기 때문에 정확한 원인을 규명하기는 어렵지만, 화질 개선 후 재구성 성공률이 떨어진다는 사실로부터, 딥러닝 기반 화질 개선이 3차원 재구성에 항상 긍정적으로 작용하지는 않는다는 점을 확인할 수 있었다.
3. 결과 요약
전체적으로 보면, 원본 고해상도 이미지를 사용한 경우에는 3D Gaussian Splatting이 대부분의 장면에서 안정적으로 3차원 재구성을 수행한 반면, 인위적으로 열화된 이미지를 사용한 경우에는 열화 수준에 따라 재구성 성공률이 크게 떨어졌다. 딥러닝 기반 화질 개선을 통해 2차원 영상의 선명도 자체는 분명히 향상되었고, 개선 이미지를 직접 입력으로 사용하여 3D Gaussian Splatting을 수행하는 것 역시 가능하였으나, 성공 사례의 절대 수는 원본 대비 확연히 줄어들었고, 단순 저하 이미지와 비교해도 성공률이 전반적으로 낮아지는 경향을 보였다. 본 실험 결과는 딥러닝 기반 화질 개선이 일부 장면에서는 3D Gaussian Splatting 재구성의 시각적 품질을 향상시키는 성공 사례를 만들어 내지만, 다른 장면에서는 오히려 재구성 실패를 증가시킬 수 있음을 보여준다. 즉, 화질 개선이 2차원 영상 품질을 높이는 데에는 분명 효과적이지만, 멀티뷰 기반 3차원 재구성 관점에서는 학습의 안정성과 기하 구조 복원에 부정적인 영향을 줄 가능성도 있음을 시사한다. 따라서 저화질 카메라 인프라를 가진 저자원·개도국 환경에서 3D Gaussian Splatting을 적용할 때에는, 화질 개선 단계를 단순히 “항상 이로운 전처리”로 전제하기보다는, 2차원 화질 향상 효과와 3차원 재구성 성공률을 함께 검증하는 설계와 평가가 필요하다는 점이 본 연구의 주요한 시사점이다.
Conclusion
본 연구에서는 대학 연구실이라는 통제된 실내 환경에서 낙상 상황을 가정한 장면을 구성하고, 고정형 카메라와 스마트폰을 이용해 멀티뷰 이미지를 취득한 뒤, 인위적 화질 열화와 딥러닝 기반 화질 개선을 순차적으로 적용하여 3D Gaussian Splatting의 재구성 가능성을 분석하였다. 특히 고해상도 원본 이미지, 손실 압축·가우시안 블러·크롭이 적용된 저하 이미지, 그리고 SKT 메타러너를 이용해 복원한 개선 이미지를 서로 비교함으로써, 저자원 실내 환경에서의 화질 조건이 3D Gaussian Splatting 기반 3차원 모델링에 미치는 영향을 재구성 성공/실패 관점에서 검토하였다.
실험 결과, 고정 화각 카메라와 스마트폰으로 취득한 원본 고해상도 이미지를 입력으로 사용할 경우 3D Gaussian Splatting는 대부분의 장면에서 포인트 클라우드를 안정적으로 형성하며 3차원 장면을 재구성할 수 있음을 확인하였다. 반면, 같은 장면에 대해 손실 압축, 블러, 크롭을 적용해 생성한 인위적 저하 이미지만을 사용한 경우에는 재구성 성공 사례가 눈에 띄게 줄어들었고, 특히 압축 수준과 블러 강도가 높아지거나 크롭으로 인해 전체 공간 정보가 크게 감소한 경우에는 재구성이 거의 이루어지지 않았다. 이는 3D Gaussian Splatting가 입력 이미지의 해상도와 선명도, 시점 간 일관성에 강하게 의존하는 기법이라는 점을 다시 한 번 확인해 주는 결과이다.
딥러닝 기반 화질 개선을 적용한 개선 이미지에 대해서는 서로 상반된 두 가지 특징이 나타났다. 한편으로 메타러너를 통해 복원된 이미지는 2차원 관점에서 분명한 화질 향상 효과를 보였으며, Blur나 압축으로 인해 흐릿해졌던 경계와 텍스처가 보다 또렷해지고, 일부 조건에서는 개선 이미지만으로도 3D Gaussian Splatting가 포인트 클라우드를 형성하여 3차원 장면을 재구성하는 것이 가능하였다. 이는 저해상도 CCTV 영상이나 저가형 카메라에서 얻은 영상이라도, 적절한 화질 개선 단계를 거친다면 사후 분석용 영상 및 3D 모델링 입력으로 활용될 수 있는 잠재력이 있음을 시사한다. 다른 한편, 재구성 성공 사례의 절대 수만을 놓고 보면 메타러너 적용 후 3D Gaussian Splatting의 재구성 성공 확률이 전반적으로 감소하는 경향이 나타났으며, 일부 조건에서는 열화 이미지만 사용했을 때 간신히 재구성이 가능하던 장면조차 개선 이미지에서는 완전히 실패하는 사례도 관찰되었다. 이는 딥러닝 기반 화질 개선 과정에서 프레임 내부 픽셀 간 관계가 재구성되거나 새로운 텍스처가 생성되면서, 시점 간 멀티뷰 일관성이 부분적으로 훼손되었을 가능성을 시사한다. 다시 말해, 2차원 이미지 차원에서는 더 선명하고 자연스러워 보이더라도, 3D Gaussian Splatting가 요구하는 기하학적 정합성 측면에서는 오히려 불리한 조건이 될 수 있다는 것이다.
적정기술과 저자원·개도국 관점에서 보면, 기존에 설치된 저가형 CCTV나 IP 카메라에서 얻은 저해상도 영상을 딥러닝 기반 화질 개선으로 보정한 뒤 3D Gaussian Splatting에 활용하는 파이프라인 자체는 가능하며, 조건에 따라 원본 고해상도 영상에 근접한 수준의 3차원 모델을 얻을 수도 있다는 점은 긍정적이다. 이는 고가의 3D 스캐너나 고해상도 카메라 인프라를 새로 구축하기 어려운 개발도상국·농어촌·도서 지역에서, 소프트웨어적인 처리만으로 공간 이해 능력을 확장할 수 있는 가능성을 보여준다.
Notes
Acknowledgements
본 결과물은 2025년도 교육부 및 제주도의 재원으로 제주 RISE센터의 지원을 받아 수행된 지역혁신중심 대학지원체계(RISE)의 결과입니다.(2025-RISE-17-001).
본 연구에서 사용한 데이터는 “2024년 데이터바우처 지원사업”을 통하여 SKT와의 협력을 통해 취득되었습니다.