제주 지역 교통 모니터링을 위한 경량 악천후 객체 탐지 모델: Lightweight Traffic Detection
Lightweight Object Detection for Traffic Monitoring in Adverse Weather Using a Case Study in Jeju
Article information
Abstract
본 연구에서는 최신 백본(Backbone)과 어텐션(Attention) 구조를 결합한 네 가지 객체 탐지(Object Detection) 모델을 제안하고, 악천후 환경에서의 성능을 종합적으로 비교·분석하였다. 안개, 비, 저조도 등 악천후 환경은 영상 품질을 저하시켜 객체의 경계를 흐리게 만들고, 기존 객체 탐지 모델의 정확도를 크게 감소시킨다. 특히 개발도상국이나 예산이 제한된 지역에서는 고가의 LiDAR나 레이더 센서를 활용한 첨단 시스템 도입이 어려워, 기존 CCTV 인프라만으로 악천후 환경에서도 효과적인 객체 탐지가 가능한 경량 기술이 요구된다. 이러한 문제를 해결하기 위해 YOLOv8 및 YOLOv11 기반의 네 가지 경량 객체 탐지 모델을 제안하고 성능을 비교 분석하였다. 첫 번째와 두 번째 모델은 Swin Transformer와 EMA (Efficient Multi-scale Attention) 모듈을 결합하여 전역 문맥 정보를 효과적으로 활용하도록 설계하였으며, 세 번째와 네 번째 모델은 EfficientNet 백본을 적용하여 파라미터(Parameter) 수와 연산량을 대폭 줄이면서도 높은 탐지 정확도를 유지하도록 하였다. 실험은 RTTS(Real-world Task-specific Test Set) (Nguyen, 2021), Fog or Detection 데이터셋(Islam, 2023)과 제주교통정보센터 CCTV 영상(제주특별자치도 교통정보센터, 2025)을 활용하여 진행되었으며, 제안 모델 중 YOLOv11-EfficientNet-EMA가 mAP50-95 기준 57.90%로 가장 우수한 성능을 달성하였다. 그러나 제안 모델은 극심한 폭우나 야간 조명이 전혀 없는 환경에서는 성능 저하가 발생할 수 있으며, 실시간 처리를 위해서는 최소한의 엣지 컴퓨팅(Edge Computing) 장비가 필요하다는 한계가 있다. 제안된 경량 모델은 기존 교통 CCTV 인프라에 소프트웨어 업데이트만으로 적용 가능하여, 제주 지역과 같이 안개가 빈번한 지역의 교통 모니터링 시스템, 실시간 사고 감지, 그리고 향후 자율주행 기반 교통 안전 시스템 구축에 저비용 고효율 솔루션으로 활용될 수 있으며, 특히 고가의 센서 도입이 어려운 농촌 지역이나 개발도상국의 교통 안전 인프라 구축에도 기여할 수 있을 것으로 기대된다.
Trans Abstract
This study proposes four object detection models that integrate the latest backbones with attention mechanisms and comprehensively compares and analyzes their performance in adverse weather conditions. Adverse environments such as fog, rain, and low light degrade video quality, necessitating lightweight technology for effective object detection using only existing CCTV infrastructure, especially in budget-limited regions. We propose and compare the performance of four lightweight models based on YOLOv8 and YOLOv11. The first two models combine Swin Transformer and the EMA (Efficient Multi-scale Attention) module to leverage global contextual information, while the latter two apply the EfficientNet backbone to substantially reduce complexity and maintain high accuracy. Experiments using the RTTS and Fog or Detection datasets, along with Jeju Traffic CCTV footage, showed that YOLOv11-EfficientNet-EMA achieved the most superior performance, reaching 57.90% based on mAP50-95. However, the models face limitations like performance degradation in extremely heavy rain or completely unlit nighttime conditions, requiring minimal edge computing equipment for real-time processing. The proposed lightweight models can be applied to existing traffic CCTV infrastructure through software updates alone, serving as a low-cost, high-efficiency solution for traffic monitoring in fog-prone areas like Jeju, real-time accident detection, and future autonomous-driving-based traffic safety systems, and are expected to contribute to infrastructure development in rural areas or developing countries where expensive sensor deployment is difficult.
서론
객체 탐지(Object Detection)는 컴퓨터 비전 분야의 핵심 과제로, 이미지 또는 영상 내에서 의미 있는 객체의 위치를 식별하고 분류하는 작업을 수행한다. 이는 자율주행, 지능형 감시 시스템, 스마트 시티 구축 등 다양한 실제 응용 분야에서 중요한 구성 요소로 활용되고 있다. 그러나 비, 안개, 눈, 저조도와 같은 악천후 환경에서는 영상 데이터의 품질이 크게 저하되어 기존 객체 탐지 모델의 성능이 급격히 감소하는 문제가 발생한다. 특히 제주특별자치도와 같이 해안과 산악이 공존하는 지역에서는 안개 발생 빈도가 높고 시계가 급격히 저하되는 날씨 조건이 잦아, 교통 모니터링 및 사고 예방을 위한 강건한 객체 인식 기술 개발이 필수적이다.
최근 딥러닝(Deep Learning) 기술의 발전으로 객체 탐지 성능은 크게 향상되었으며, 특히 합성곱 신경망(Convolutional Neural Network, CNN)을 기반으로 한 다양한 구조들이 주목받고 있다. ResNet, DenseNet, VGG와 같은 대표적인 백본 네트워크들은 강력한 특징 추출 성능을 바탕으로 다양한 객체 탐지 모델에 널리 사용되어 왔다(He et al., 2016; Huang et al., 2017; Simonyan and Zisserman, 2015). 그러나 이러한 모델들은 계산 복잡도와 모델 크기가 크다는 단점이 있어, 실시간 응용이나 자원이 제한된 환경에서는 적용이 어렵다는 한계를 지닌다.
이러한 문제를 해결하기 위해 Tan과 Le(2019)가 제안한 EfficientNet은 컴파운드 스케일링(Compound Scaling) 기법을 통해 깊이, 너비, 해상도를 균형 있게 확장함으로써, 기존 CNN 대비 적은 연산 자원으로도 높은 정확도를 달성할 수 있는 구조를 제시하였다. 특히 EfficientNetV2는 기존 모델 대비 최대 11배 빠른 학습 속도와 더 높은 정확도를 보이며 객체 인식 분야에서 강력한 성능을 입증하였다(Tan and Le, 2021). 그러나 EfficientNet 단독으로는 다양한 스케일의 객체 특징을 효과적으로 포착하거나 의미 있는 영역에 선택적으로 집중하는 데 한계가 있을 수 있다.
이에 본 연구에서는 경량성과 정확도를 동시에 만족하는 EfficientNet을 백본으로 활용하고, 다양한 스케일의 객체 특징을 효과적으로 추출할 수 있는 EMA (Efficient Multiscale Attention) 모듈을 결합하여 모델의 표현력을 강화하고자 한다. EMA 모듈은 공간적 주의(Spatial Attention)와 채널 주의 (Channel Attention)를 통합하여 의미 있는 특징을 강조하고 불필요한 배경 정보를 억제하며, 다양한 스케일의 정보를 통합하여 크기가 다양한 객체를 효과적으로 탐지할 수 있도록 설계되었다(Wang et al., 2024). 특히 시야 흐림, 객체 경계 모호화 등 악천후 특성에 강인한 성능을 보장하며, 낮은 연산 복잡도로 실시간 처리가 가능하다는 장점을 지닌다.
본 연구에서는 YOLOv8 및 YOLOv11 아키텍처를 기반으로 총 네 가지 객체 탐지 모델을 구성하였다. 먼저 비교 기준 모델로서 Swin Transformer와 EMA를 결합한 두 가지 모델(YOLOv8-STE, YOLOv11-STE)을 구현하였으며, 제안 모델로서 EfficientNet 백본과 EMA를 결합한 두 가지 모델(YOLOv8 + EfficientNet + EMA, YOLOv11 + EfficientNet + EMA)을 설계하였다. 실험은 RTTS(Nguyen, 2021), BCMaster, Fog 데이터셋(T. V. S, 2022)과 함께 제주특별자치도 교통정보센터에서 수집한 실제 CCTV 영상 데이터(제주특별자치도 교통정보센터, 2025)를 활용하여 진행하였으며, 이를 통해 제안 모델이 현실적인 지역 교통 환경에서도 강건하게 작동함을 검증하고자 하였다.
본 논문의 주요 기여는 다음과 같다.
첫째, 실시간 및 자원 제한 환경에 적합한 경량화된 특징 추출 구조로서 EfficientNet 기반 백본 아키텍처를 제안한다. 둘째, 다중 스케일 특징 표현력 향상과 의미 있는 영역에서의 주의 집중을 위해 EMA 모듈을 EfficientNet과 통합하였다. 셋째, 악천후 환경을 반영한 데이터셋을 바탕으로 다양한 성능 실험을 수행하고, 기존 방법들과 비교하여 제안 모델의 견고성과 우수성을 평가하였다. 넷째, 제주 지역의 실제 교통 CCTV 데이터를 활용하여 모델의 실용적 적용 가능성을 입증하였다. 본 연구는 EfficientNet과 EMA의 결합을 통해 모델 경량성과 인식 정밀도를 동시에 확보함으로써, 악천후 환경에서의 객체 탐지 성능 향상에 기여할 수 있을것으로 기대된다.
관련 연구
최근 악천후 환경에서의 객체 탐지 성능을 개선하기 위한 다양한 접근법이 제안되었다. Jing et al.(2024)이 제안한 YOLOv8-STE는 YOLOv8 구조에 Swin Transformer와 EMA (Efficient Multi-scale Attention) 모듈을 결합하여 복잡한 날씨 조건에서도 높은 인식 성능을 달성하였다. EMA는 Neck 구조에 삽입되어 다중 스케일에서 중요한 정보를 강조하고 배경 노이즈를 억제하는 데 효과적이었으며, RTTS 및 DAWN 데이터셋에서 기존 YOLOv8 대비 최대 6%의 mAP (mean Average Precision) 향상을 보였다. Jeon et al.(2023)의 DA-RAW는 도메인 적응(Domain Adaptation) 기반 접근법을 통해 스타일 간극과 날씨 간극을 분리하여 CBAM 어텐션과 대조 학습(Contrastive Learning)을 적용하였다. 이 방식은 복잡한 환경 변화에 강인한 성능을 보였으나, 높은 구조적 복잡성과 연산량으로 인해 실시간 응용에는 제약이 있었다.
1. YOLO
YOLOv8은 Ultralytics에서 2023년에 공개한 차세대 객체 탐지 모델로, YOLO 시리즈 중 처음으로 앵커 프리(Anchorfree) 설계를 도입하였다. 기존 앵커 기반(Anchor-based) 방식과 달리 바운딩 박스 회귀 중심의 직접적 객체 예측 방식을 통해 추론 속도와 정확도를 모두 개선하였다. 백본에는 C2f(Concatenate-to-Fuse) 모듈이 도입되어 기존 C3 구조보다 가볍고 효과적인 특징 추출이 가능하며, 자동 학습 NMS (auto-learning NMS)와 동적 라벨 할당(Dynamic Label Assignment) 등의 기술을 포함하여 실시간 처리 효율을 극대화하였다.
YOLOv11은 YOLOv8을 기반으로 다양한 Neck 및 Head 구성 요소를 확장하여 탐지 성능을 강화한 구조이다. Contextual Scale Fusion(CSF)은 서로 다른 해상도의 특징 맵을 융합할 때 위치별 가중치를 고려한 문맥 기반 특징 통합을 수행한다. Adaptive Multi-head Decoding은 클래스 예측, 바운딩 박스 회귀, 객체성을 분리하여 처리함으로써 더 안정적이고 정밀한 탐지를 가능하게 한다. 이러한 구조적 개선을 통해 YOLOv11은 복잡한 장면에서도 높은 정확도를 유지할 수 있다.
2. 경량 백본 네트워크: EfficientNet
Tan과 Le(2019)가 제안한 EfficientNet은 컴파운드 스케일링(Compound Scaling) 기법을 통해 깊이, 너비, 해상도를 균형 있게 확장하여 적은 연산량으로도 높은 정확도를 달성한다. 2021년에 발표된 EfficientNetV2는 기존 모델 대비 최대 11배 빠른 학습 속도, 더 높은 정확도, 더 적은 파라미터 수를 보이며 객체 인식 분야에서 강력한 성능을 입증하였다(Tan and Le, 2021).
EfficientNet은 MBConv (Mobile Inverted Bottleneck Convolution) 모듈을 기반으로 깊이별 분리 가능 합성곱(Depthwise Separable Convolution)을 적용하여 파라미터 수와 연산량을 줄이면서도 풍부한 특징 표현이 가능하다. 이러한 구조적 특성으로 인해 고해상도와 저해상도 영상 모두에서 안정적인 특징 추출이 가능하며, 특히 악천후 환경에서 노이즈와 시야 흐림 현상에도 견고한 객체 경계 포착 능력을 보인다. 또한 연산 효율이 높아 임베디드 환경이나 자원 제약이 있는 실시간 처리 시스템에 적합하다.
3. Efficient Multi-scale Attention(EMA) 모듈
EMA 모듈은 이미지 내 다양한 크기의 객체 정보를 효과적으로 통합하고, 공간적 및 채널 기반 주의 메커니즘을 통해 의미 있는 특징을 강조한다. 기존 CBAM, Squeeze-and-Excitation 등 어텐션 구조와 비교했을 때 낮은 연산 복잡도 대비 높은 정확도 향상을 보이며, 특히 시야 흐림과 객체 경계 모호화 등 악천후 특성에 강인한 성능을 보장한다.
EMA는 다양한 해상도에서 특징 맵을 통합하여 작은 객체나 흐릿한 배경에서도 안정적으로 인식할 수 있도록 지원한다. 경량 구조로 설계되어 전체 모델의 연산 효율성과 실시간성에 영향을 거의 주지 않으면서 성능을 개선할 수 있는 장점을 가진다.
기존 연구들은 Transformer, 도메인 적응, 이미지 증강 등을 통해 악천후 객체 탐지 성능을 개선하고자 하였으나, 대부분 다음과 같은 한계를 보였다. 첫째, Transformer 기반 모델들은 높은 연산량으로 인해 고성능 GPU 환경을 필요로 하며 엣지 디바이스나 임베디드 시스템에서의 실시간 적용이 어렵다. 둘째, 도메인 적응 기반 방법들은 구조적 복잡성이 높아 학습 시간이 길고 하이퍼파라미터 튜닝이 까다롭다. 셋째, 대부분의 고성능 모델들은 경량화에 대한 고려가 부족하여 실용적 배포에 제약이 있다.
따라서 본 연구는 이러한 한계를 극복하고자 EfficientNet 계열의 경량 백본 구조와 EMA 어텐션 모듈을 YOLOv8 및 YOLOv11 아키텍처에 결합하여 정확도, 실시간성, 경량성을 동시에 만족하는 객체 인식 모델을 제안한다. 특히 제주 지역의 실제 교통 CCTV 데이터를 활용하여 해안과 산악이 공존하는 지형 특성으로 인한 빈번한 안개 발생 환경에서의 실용성을 검증함으로써, 지역 특화 적정 기술로서의 가치를 입증하고자 한다.
연구 방법
안개와 악천후 등 저가시성 환경에서는 시야 확보가 어려워 객체 탐지 성능이 크게 저하된다. 이 연구에서는 이러한 문제를 해결하고 저가시성 환경에서도 일반적인 환경과 유사한 성능을 유지하면서 경량화된 모델을 개발하기 위해, YOLOv8과 YOLOv11 두 가지 YOLO 아키텍처에 EfficientNet과 EMA의 효율성을 결합한 새로운 모델을 제안하였다. 특히 자원이 제한된 환경에서도 실시간 처리가 가능하도록 경량성과 정확도의 균형을 중점적으로 고려하였다.
1. 제안 모델 구조
제안하는 전체 구조는 기존 YOLO 아키텍처를 기반으로 하되, 백본(Backbone) 구조에 Swin Transformer 또는 EfficientNet 모듈을 적용하고, 헤드(Head) 부분에는 EMA(Efficient Multi-scale Attention) 모듈을 삽입하여 성능을 향상시키는 방식으로 구성된다. 이 연구는 고성능 GPU가 아닌 일반적인 하드웨어 환경에서도 실용적으로 활용 가능한 모델 개발을 목표로 하였다.
이 연구에서는 총 네 가지 모델을 구성하여 성능을 비교하였다. 첫 번째와 두 번째 모델은 각각 YOLOv8과 YOLOv11에 Swin Transformer와 EMA를 결합한 YOLOv8-STE 및 YOLOv11-STE이다(Figure 1A, B). 세 번째와 네 번째 모델은 EfficientNet 백본을 적용한 YOLOv8 + EfficientNet + EMA 및 YOLOv11 + EfficientNet + EMA로, 경량성과 정확도의 균형을 추구하였다(Figure 1C, D). 특히 EfficientNet 기반 모델은 제한된 컴퓨팅 자원 환경에서도 효과적으로 작동하도록 설계하였다.
2. 백본 모듈
EfficientNet은 NAS(Neural Architecture Search)를 통해 최적화된 EfficientNet-B2를 기본 구조로 하며, 컴파운드 스케일링 전략을 도입하여 네트워크의 깊이, 너비, 해상도를 균형 있게 확장한다. MBConv(Mobile Inverted Bottleneck Convolution) 모듈을 기반으로 깊이별 분리 가능 합성곱(Depthwise Separable Convolution)을 적용하여 파라미터 수와 연산량을 줄이면서도 풍부한 특징 표현이 가능하다. 활성화 함수로는 Swish를 사용하여 비선형성 및 학습 안정성을 향상시켰다.
이러한 구조적 특성으로 인해 EfficientNet은 고해상도와 저해상도 영상 모두에서 안정적인 특징 추출이 가능하며, 특히 악천후 환경에서 노이즈와 시야 흐림 현상에도 견고한 객체 경계 포착 능력을 보인다. 또한 연산 효율이 높아 고가의 서버급 하드웨어가 아닌 임베디드 환경이나 일반 PC 수준에서도 실시간 처리가 가능하여, 예산 제약이 있는 지자체나 중소 교통관리 기관에서도 활용 가능하다는 장점이 있다.
Swin Transformer는 지역 윈도우 기반 자체 주의 메커니즘(Local Window-based Self-attention Mechanism)을 적용한 계층적 비전 트랜스포머(Hierarchical Vision Transformer)로, 뛰어난 연산 효율과 전역 문맥 포착 능력을 갖춘다. 이 연구의 Swin Transformer 백본은 TorchVision에서 사전 학습된 Swin-Tiny(Swin-T)를 사용하였으며, 다중 해상도(1/8, 1/16, 1/32 크기)의 특징 맵을 계층적으로 추출한다. 추출된 특징맵은 1×1 합성곱(Convolution)을 통해 각각 256, 512, 1024 채널로 표준화하며, 텐서 차원 변환을 수행하여 모델 내 연산에 적합하도록 처리한다.
3. EMA 모듈 통합
이 연구에서는 YOLO 아키텍처의 Head 구조에 EMA(Efficient Multi-scale Attention) 모듈을 통합하여 객체 인식 성능을 향상시켰다. 기존의 단순한 업샘플링(Upsampling) 및 연결(Concatenation) 기반 특징(Feature) 통합 방식은 저가시성 환경에서 잡음이나 불분명한 경계로 인해 중요한 특징이 묻히는 한계가 있다.
EMA 모듈은 다중 스케일 특징(Multi-scale Feature) 통합 과정에서 각 해상도의 특징들로부터 의미 있는 공간 정보를 선택적으로 강조하고, 덜 중요한 영역은 억제하는 방식으로 작동한다. YOLOv8 및 YOLOv11 아키텍처 모두에 대해 Neck의 각 단계(P3, P4, P5)마다 업샘플링 및 C2f 처리 이후 EMA 모듈을 삽입하였다. 또한 상향식 경로(Bottom-up Path)에서도 다운샘플링(Downsample) 및 연결(Concat) 이후에 EMA를 적용하여 전방향 흐름에서 공간적 집중력을 강화하였다. EMA 모듈은 경량 구조로 설계되어 전체 모델의 연산 효율성과 실시간성에 영향을 거의 주지 않으면서 성능을 개선할 수 있는 장점을 가지고 있다.
실험 설계
1. 데이터셋 구성
이 연구에서는 악천후로 인한 저가시성 환경에서의 객체 탐지 성능 향상을 위해 총 3개의 공개 악천후 이미지 데이터셋을 조합하여 학습용 데이터셋을 구성하였으며, 제주 지역의 실제 교통 CCTV 영상을 테스트 데이터셋으로 활용하였다. 전체 데이터는 총 4,868장의 이미지로 구성되었으며, train:validation:test = 8:1:1의 비율로 분할하여 학습 및 검증에 사용하였다. 객체 클래스는 bicycle, bus, car, motorbike, person으로 총 5가지로 정의하였다.
학습 데이터는 다음 세 가지 공개 데이터셋으로 구성되었다. RESIDE 벤치마크의 RTTS(Nguyen, 2021)는 주간 및 야간의 흐릿한 도로 환경에서 촬영된 이미지들로 구성되어 있으며, 학습 목적에 적합한 장면들을 선별하여 활용하였다. Fog or Smog Detection 데이터셋(Islam, 2023)에서는 안개가 낀 환경으로 분류된 이미지들을 별도로 추출하여 사용하였으며, 원본 데이터셋에 객체 라벨링이 포함되어 있지 않았기 때문에 차량 및 기타 교통 요소들에 대해 수작업으로 바운딩 박스 라벨링을 수행하였다. Fog 데이터셋(T. V. S, 2022)에서는 짙은 안개 환경의 교통 장면들을 추출하여 별도의 학습 데이터로 구성하였으며, 정의된 5개의 클래스에 대한 직접적인 라벨링 작업을 진행하였다.
모델의 실환경 적용 가능성을 검증하기 위하여 제주특별자치도 교통정보센터의 CCTV에서 수집한 실제 환경 이미지 데이터(제주특별자치도 교통정보센터, 2025)를 테스트 데이터셋으로 활용하였다. 제주도는 섬 지역 특성상 해안과 한라산을 중심으로 한 산악 지형이 공존하며, 해양성 기후의 영향으로 안개 발생 빈도가 매우 높다. 특히 새벽과 아침 시간대에 급격한 안개 발생으로 시계가 50m 이하로 떨어지는 경우가 빈번하여, 교통사고 위험이 높은 지역으로 알려져 있다. 이러한 지역적 특성은 악천후 환경 객체 탐지 모델의 성능 검증에 매우 적합한 환경을 제공한다. 해당 데이터는 비 및 안개와 같은 악천후 조건에서 촬영된 CCTV 영상에서 추출한 이미지들로 구성되었으며, 학습에 사용된 데이터와 환경적 이질성이 높은 실제 환경에서 모델의 일반화 성능을 검증하는 데 활용되었다. 이는 단순한 벤치마크 데이터셋 평가를 넘어, 실제 지역 교통관리 현장에서 모델이 어떻게 작동하는지를 확인하는 중요한 과정이다.
제안한 모델의 성능을 다양한 구성과 비교하기 위해 총 네 가지 실험 모델을 구성하였다. YOLOv8-STE는 표준 YOLOv8 아키텍처에 Swin Transformer를 백본으로 적용한 기준 모델이며, YOLOv11-STE는 YOLOv11을 기반으로 Swin Transformer를 백본으로 적용한 모델이다. YOLOv8 + EfficientNet + EMA는 YOLOv8 구조에 EfficientNet 백본과 EMA 모듈을 적용한 제안 모델이며, YOLOv11 + EfficientNet +EMA는 YOLOv11 구조에 EfficientNet 백본과 EMA 모듈을 통합한 최종 제안 모델이다.
모든 모델은 동일한 데이터셋과 훈련 조건 하에서 학습되었으며, mAP@0.5, mAP@0.5:0.95, 정밀도(Precision), 재현율(Recall), F1 Score 등의 객체 탐지 표준 평가 지표를 사용하여 성능을 정량적으로 비교하였다. 특히 EfficientNet 기반 모델과 Swin Transformer 기반 모델 간의 비교를 통해 정확도와 연산 효율성 간의 균형점을 파악하고자 하였다.
3. 실험 환경
모든 실험은 Windows 11 운영체제, Intel Core i7-12700 프로세서, NVIDIA GeForce RTX 3070(8GB), 32GB RAM 환경에서 PyTorch 2.7.0 프레임워크를 기반으로 수행되었으며, CUDA를 이용한 GPU 가속 학습을 적용하였다. 이는 고가의 전문 서버가 아닌 일반적인 워크스테이션 수준의 환경으로, 실제 현장 적용 시 예상되는 하드웨어 환경을 고려한 설정이다.
결과 및 고찰
1. 평가
•정밀도 (Precision)
정밀도는 모델이 양성으로 예측한 샘플 중 실제로 양성인 샘플의 비율을 나타낸다.
• 재현율 (Recall)
재현율은 실제 양성 샘플 중 모델이 정확하게 예측한 비율을 나타낸다.
• mAP@0.5(mean Average Precision at IoU 0.5)
IoU(Intersection over Union)가 0.5 이상인 경우에 대한 평균 정밀도로, 객체 탐지 정확도를 나타낸다.
• mAP@0.5:0.95 (COCO-style 평균 정확도)
IoU임계값을 0.5부터 0.95까지 0.05 간격으로 변화시키며 평균을 낸 정밀도로, COCO 데이터셋에서 사용되는 지표이다.
전반적인 mAP50 성능은 YOLOv11 기반 모델이 YOLOv8 기반 모델보다 우수하게 나타났으며, 특히 YOLOv11+EfficientNet+EMA 모델이 모든 지표에서 가장 높은 정확도를 달성하였다.
YOLOv11+EfficientNet+EMA 모델은 mAP50에서 79.22%를 기록하여, 기준 모델인 YOLOv8-STE(71.39%) 대비 7.83%p의 유의미한 성능 향상을 보였다. 뿐만 아니라 mAP50-95 지표에서도 57.9%로 다른 모델들을 압도하며, IoU(Intersection over Union, 교집합/합집합 비율) 기준에서도 제안 모델의 정확도가 매우 높음을 입증했다.
계산 효율성 측면에서, Table 1에 제시된 바와 같이 제안 모델들은 파라미터 수 4~5M 수준의 경량 구조를 유지하면서도 우수한 추론 성능을 달성하였다. YOLOv11-STE 모델이 109.63ms의 추론 시간을 기록한 반면, YOLOv11+EfficientNet+EMA 모델은 84.56ms로 약 23% 빠른 추론 속도를 보였다. 특히 YOLOv8+EfficientNet+EMA 모델은 75.42ms의 추론 시간과 13.26 FPS를 달성하여 실시간 처리에 가장 적합한 성능을 나타냈다. 이는 EfficientNet 의 컴파운드 스케일링 전략이 연산 효율성 향상에 효과적으로 기여했음을 보여준다.
EfficientNet 백본과 EMA 모듈의 결합은 Swin Transformer 기반 모델 대비 유사한 파라미터 수를 유지하면서도, 흐릿한 경계와 노이즈 환경에서의 지역적 특징 추출과 다중 스케일 특징 강조 능력을 효과적으로 강화했음을 입증했다.
특히, 제주 교통정보센터 CCTV 영상 테스트셋을 활용한 실환경 성능 검증 결과, 모든 제안 모델이 학습 데이터와 환경적 이질성이 높은 실제 악천후 조건에서도 견고한 일반화 성능을 보였다. 특히 빈번한 안개(Foggy) 환경에서 정밀도(Precision) 기준 YOLO 11 + Efficient + EMA 모델이 78.98%의 성능을 기록하며, 다른 모델 대비 가장 안정적이고 정밀한 탐지 성능을 보여주었다. 이는 EMA 모듈이 저가시성 환경에서 배경 잡음을 억제하고 객체 경계의 모호성을 극복하는 데 결정적인 역할을 했음을 시사한다. 또한, 해당 모델의 재현율(Recall) 지표는 72.01%로 높은 재현율을 달성하여, 놓치는 객체 없이 안정적인 탐지를 수행했음을 뒷받침한다.
결론
본 연구는 안개, 비, 저조도 등 악천후 환경에서 기존 객체 탐지 모델의 성능 저하 문제를 해결하기 위해, EfficientNet 백본과 EMA (Efficient Multi-scale Attention) 모듈을 YOLOv8 및 YOLOv11 아키텍처에 결합한 경량 및 고성능 객체 탐지 모델 네 가지를 제안하고 종합적으로 비교·분석하였다. 실험 결과, 제안 모델 중 YOLO 11 + Efficient + EMA 모델이 mAP50 (79.22%), 정밀도(Precision) (78.98%), 재현율(Recall) (72.01%), F1 Score (75.3%) 등 모든 핵심 탐지 지표에서 공개 악천후 데이터셋과 제주 지역 CCTV 실제 환경 테스트셋 기반 가장 우수한 성능을 보였다. 특히 이 모델은 mAP50에서 79.22%를 달성하여 기준 모델인 YOLO 8-STE (71.39%) 대비 7.83%의 유의미한 성능 향상을 입증하였다. EfficientNet의 효율적인 컴파운드 스케일링 전략과 EMA 모듈의 선택적 특징 강조 능력이 결합되어, 높은 연산 자원을 요구하는 Transformer 기반 모델 없이도 악천후 환경에서 뛰어난 탐지 성능을 구현하였다. 이는 경량 백본을 통한 실시간성 확보와 주의 메커니즘을 통한 정확도 향상의 성공적인 통합을 보여준다. 또한, 제주 지역의 빈번한 안개 발생 환경을 반영한 실제 교통 CCTV 데이터를 활용하여 모델의 지역 특화 적정 기술로서의 실용적 가치를 성공적으로 검증하였다. 결론적으로, 본 연구는 EfficientNet 기반 백본과 EMA 모듈을 통합한 YOLO 아키텍처가 악천후 환경에서 실시간 교통 모니터링, 사고 감지, 그리고 자율주행 시스템의 안전성 향상을 위한 가장 효과적인 경량 솔루션임을 정량적으로 입증하였다.
Notes
사사
본 과제(결과물)는 2025년도 교육부 및 제주도의 재원으로 제주RISE센터의 지원을 받아 수행된 지역혁신중심 대학지원체계(RISE)의 결과입니다(2025-RISE-17-001).