BERT 기반 양방향 어텐션 멀티모달 트랜스포머를 활용한 설명가능한 작물 분류 모델 연구
Explainable Crop Classification Using a BERT-Based Bidirectional Attention Multimodal Transformer
Article information
Abstract
기후 변화의 가속화와 글로벌 식량 안보 위기 심화로 인해, 다양한 환경 조건에서 작물의 상태를 정확하고 신뢰성 있게 분류하는 기술의 중요성이 점차 높아지고 있다. 기존의 작물 분류 모델들은 주로 위성 영상 기반의 스펙트럼 특징이나 시계열 패턴을 학습해 정확도 향상에 집중해왔으나, 모델이 어떤 근거로 특정 작물을 분류했는지 설명하기 어려운 블랙박스 특성으로 인해 실제 농업 의사결정 현장에서 활용이 제한되는 문제가 존재하였다. 특히 고가의 센서나 대규모 인프라 구축이 필요한 시스템은 개발도상국이나 농업 기반이 취약한 지역에서 적용하기 어렵다는 점에서 기술 격차를 심화시키는 한계도 지닌다. 이에 본 연구는 BERT 기반 양방향 어텐션 메커니즘을 멀티모달 트랜스포머 구조에 적용하여, 작물 분류 성능을 유지하면서도 예측 근거를 명확히 해석할 수 있는 설명가능성을 확보하고자 하였다. 제안한 BERT Hybrid 모델은 PVT 백본을 활용해 Sentinel-2 위성 영상에서 공간적 패턴을 추출하고, 이를 기상 시계열 임베딩과 결합한 후 양방향 어텐션을 통해 시점 간·모달리티 간 상호관계를 통합적으로 학습한다. 또한 기존 MMST-ViT (Multi-Modal Spatial-Temporal Vision Transformer) 모델과 동일한 조건에서 비교 실험을 수행하여, 전체 정확도뿐 아니라 생육 단계별 시간축 어텐션 분포와 기상 변수 중요도를 정량적으로 분석하였다. 실험 결과 양방향 어텐션은 시간축과 변수축에서 차별적 학습 전략을 나타냈다. 시간축에서는 중요 생육 단계(개화·결실기)에 선택적으로 집중하여 핵심 시기를 명확히 식별하였으며, 변수축에서는 다양한 기상 요인을 균형 있게 고려하여 특정 변수에 대한 과도한 의존을 회피하였다. 이러한 이중적 특성은 모델이 '언제(when)' 주목할지는 선택적으로, '무엇을(what)' 고려할지는 포괄적으로 판단함을 의미하며, 해석가능성 측면에서 유용한 패턴으로 확인되었다. 본 연구는 멀티모달 농업 AI 모델에서 정확도와 설명가능성 간 트레이드오프를 규명함으로써, 신뢰성 있는 딥러닝 기반 농업 분석 시스템 구축을 위한 중요한 기반을 제시한다. 특히 Sentinel-2 위성영상과 공공 기상자료처럼 전 세계 어디서나 접근 가능한 개방형 데이터만을 활용함으로써, 고가 장비나 복잡한 인프라에 의존하지 않는 저비용 농업 모니터링 체계를 구현할 수 있음을 보여준다. 이는 자원·기술·인프라가 제한된 지역에서도 활용 가능한 적정기술적 접근으로, 농업 정보 격차를 완화하고 지속 가능한 의사결정을 지원할 수 있는 잠재력을 지닌다.
Trans Abstract
Accelerating climate change and the intensifying global food security crisis have increased the importance of reliable crop classification across diverse environmental conditions. Existing crop classification models have primarily focused on improving accuracy by learning spectral and temporal patterns from satellite imagery; however, their black-box nature makes it difficult to understand the rationale behind each prediction, limiting their applicability in real-world agricultural decision-making. To address this issue, this study introduces a multimodal Transformer model that incorporates a BERT-based bidirectional attention mechanism, aiming to retain classification performance while enhancing interpretability. The proposed BERT Hybrid model employs a PVT backbone to extract spatial features from Sentinel-2 satellite imagery and integrates them with meteorological time-series embeddings; bidirectional self-attention is then used to jointly model cross-temporal and cross-modal interactions. We further conduct comparative experiments under the same conditions as the MMST-ViT(Multi-Modal Spatial-Temporal Vision Transformer) baseline, evaluating not only overall accuracy but also temporal attention patterns across crop growth stages and the relative importance of different weather variables. Experimental results show that bidirectional attention alleviates excessive focus on specific timestamps or single variables, producing more consistent and interpretable attention distributions. This study highlights the performance– interpretability trade-off in multimodal agricultural AI models and provides a foundation for building trustworthy deeplearning systems for crop monitoring. In addition, because the proposed approach relies solely on globally accessible Sentinel-2 satellite imagery and publicly available meteorological data, it demonstrates the potential for constructing large-scale crop monitoring systems at low cost, aligning with the principles of appropriate technology.
서론
정밀농업 및 기후 변화 대응을 위해 작물 분류와 토지 피복 분류의 정확도 향상은 매우 중요하다. 작물 재배 면적이나 종류를 정확히 파악하면 농업정책 수립과 식량 공급 예측에 필수적인 정보를 제공할 수 있다. 과거에는 위성영상에서 추출한 스펙트럼 지수나 항공사진 분석 등 전통적인 기법으로 작물 분류를 수행해왔으나, 이러한 접근법은 방대한 데이터의 복잡한 패턴을 포착하는 데 한계가 있었다. 최근 딥러닝 기술의 발전으로, 위성 Sentinel-2 영상의 시계열 정보와 기상 데이터를 결합한 멀티모달 딥러닝 모델들이 작물 분류 및 생육 예측에 도입되고 있으며(Khaki et al., 2019; Maimaitijiang et al., 2020; Yi et al., 2020; Kong et al., 2025), 이러한 멀티모달 접근은 단일 데이터 대비 분류 정확도를 유의하게 향상시키는 것으로 보고되었다. 특히 합성곱 신경망과 순환 신경망을 조합한 CNN-LSTM 모델이나, 트랜스포머(Transformer) 기반 모델들이 뛰어난 성능을 보이며 주목받고 있다.
트랜스포머 구조는 원래 자연어 처리(NLP)에서 어텐션 매커니즘을 활용해 순환이나 합성곱 없이도 동작하는 형태로 개발되어 뛰어난 성능을 입증한 이후, 컴퓨터 비전과 시계열 분석 등 다양한 분야로 확장되었다. Vision Transformer(ViT)는 이미지 패치를 토큰으로 처리하여 자체 어텐션 메커니즘으로 전역적 패턴을 학습함으로써 이미지 분류에서 기존 CNN에 상응하거나 그 이상의 성능을 보여주었다(Dosovitskiy et al., 2021). 농업 분야에서도 ViT를 활용하려는 시도가 이어져, 위성영상과 기상 데이터를 통합한 MMST-ViT 모델을 제안하여 작물 수확량 예측에 적용하였다(Lin et al., 2023). MMST-ViT(Multi-Modal Spatial-Temporal Vision Transformer)는 Multi-Modal Transformer, Spatial Transformer, Temporal Transformer의 세 부분으로 구성되며, 각각 단기 기상 변동, 인접 지역 간 공간 의존성, 장기 기후 영향 등을 학습하도록 설계되었다. 이러한 트랜스포머 기반 모델들은 기존의 CNN-RNN 기반 모델들보다 멀티모달 장기 의존성 학습에 유리하여 농업 예측 문제에서 좋은 결과를 보이고 있다. 그러나 복잡한 구조로 인해 결과 해석이 어려운 블랙박스라는 문제가 여전히 남아 있다(Jain and Wallace, 2019).
한편, NLP 분야에서 혁신을 가져온 BERT(Bidirectional Encoder Representations from Transformers)는 양방향 (bidirectional) Self-Attention 구조를 도입하여 문맥 이해도를 극대화한 모델이다(Devlin et al., 2019). BERT는 입력 문장 내 모든 토큰들이 서로를 양방향으로 참고할 수 있도록 설계되어, 좌우 맥락 정보를 모두 활용한 깊은 표현 학습을 가능케 하였다. 반면 기존의 트랜스포머 인코더 기반 ViT나 MMST-ViT의 멀티모달 합성 방식은 각 모달리티 또는 시간 순서에 따라 일방향적 또는 분리된 어텐션 구조를 사용하고 있다(Lin et al., 2023). 예를 들어, MMST-ViT의 멀티모달 결합은 영상과 기상 데이터를 교차로 참조하지만 일방향 크로스어텐션에 가까워, 한 모달의 토큰이 다른 모달의 토큰을 일방적으로 어텐션하는 형태로 구현된다. 이는 정보 흐름의 상호작용이 제한될 수 있으며, 한쪽 모달리티에 편향된 어텐션 분포를 초래할 가능성이 있다(Huang et al., 2024). 이에 본 연구는 BERT의 양방향 Self-Attention 메커니즘을 농업 멀티모달 분류에 도입하여, 모든 시계열 단계와 모든 모달리티 간에 자유로운 상호 어텐션을 수행하는 하이브리드 모델을 제안한다. 우리의 가설은, 양방향 어텐션을 통해 모델이 시간축과 변수축에서 서로 다른 전략을 취할 수 있으리라는 것이다. 구체적으로, 시간축에서는 중요한 생육 단계에 선택적으로 집중하고, 변수축에서는 다양한 기상 요인을 균형있게 고려함으로써, 더 해석가능한 결정을 내릴 수 있다. 다만 모델이 중요한 정보에 충분히 집중하지 못하고 어텐션이 과도하게 분산될 경우, 오히려 정확도가 저하될 위험도 존재한다. 따라서 우리는 기존 MMST-ViT 모델(단방향 크로스어텐션 기반)과 BERT 하이브리드 모델(양방향 selfattention 기반)을 동일한 데이터셋과 조건에서 비교 실험함으로써, 성능과 어텐션 패턴의 차이를 체계적으로 분석하고자 한다. 한편 본 연구에서 사용하는 Sentinel-2 위성영상과 기상 관측 자료는 유럽우주국과 기상청 등 공공기관에서 무료로 제공하는 공개 데이터이다. 이는 추가 센서 설치나 고가 장비 투자 없이도 농가와 지자체, 개발도상국 공공기관이 동일한 데이터를 활용해 작물 모니터링 시스템을 구축할 수 있음을 의미한다. 따라서 제안 모델은 성능과 해석가능성뿐 아니라, 데이터 접근성과 비용 측면에서도 적정기술의 지향점과 부합하는 농업 분석 도구로 활용될 수 있으며, 설명가능한 인공지능(Explainable AI, XAI)을 통해 신뢰할 수 있는 농업 의사결정을 지원하는 기반이 될 수 있다(Rudrakar and Rughani, 2023).
관련연구
1. 작물 분류
원격탐사 영상 기반의 작물 분류 연구는 다중분광 및 다중시점 데이터 활용을 통해 정확도를 꾸준히 향상시켜 왔다. 랜덤 포레스트나 딥러닝 모델을 이용한 선행 연구들은 위성 영상의 스펙트럼, 시계열 특징이 작물 종류 판별에 유용함을 입증하였다(Yi et al., 2020). 예를 들어, Sentinel-2 시계열을 활용하면 단일 시점 대비 현저한 정확도 개선을 얻을 수 있으며, 최적의 밴드 조합과 시점 선택이 분류 성능 향상에 중요하다. 그러나 기상 데이터 등 다른 모달 정보의 결합은 상대적으로 덜 연구되었으며, 최근 들어 다중 데이터 융합을 통한 작물 분류가 주목받고 있다(Maimaitijiang et al., 2020).
2. Transformer
Transformer 모델은 어텐션 메커니즘을 기반으로 시계열 패턴 학습에 뛰어난 성능을 보이며, 자연어 처리뿐 아니라 영상·시계열 분석 전반으로 확장되고 있다. 시각 분야에서도 ViT(Vision Transformer)가 제안되며 이미지 분류와 원격 탐사 영상 분석에 폭넓게 활용되고 있다. 더 나아가, 최근의 멀티모달 트랜스포머는 영상–텍스트, 영상–표, 센서–언어 등 이질적인 데이터 간 관계를 교차어텐션으로 통합하여 복합 패턴을 포착하고 있으며, 비디오 자막 생성이나 이미지 설명 생성에서도 이러한 접근이 활용되고 있다(Hori et al., 2017).
원격탐사 분야에서도 트랜스포머 구조를 멀티모달 데이터에 적용하려는 시도가 증가하고 있다. 대표적으로 MMSTViT(Multi-Modal Spatial-Temporal Vision Transformer)는 위성 영상과 기상 시계열을 통합하여 지역 단위 작물 생산량을 예측한 모델로, 시각 패치 임베딩·기상 시계열·공간 인접성·장기 기후 추세를 계층적으로 통합하는 구조를 갖는다(Lin et al., 2023). MMST-ViT는 멀티스케일 시공간 패턴을 포착하는 데 강점을 보이나, 모듈 수가 많고 구조가 복잡하여 설명가능성을 확보하기 어렵다는 한계가 존재한다.
한편, 최근의 비전/시계열 분야 연구에서는 피라미드 구조의 비전 트랜스포머 및 공간 축소 어텐션(Spatial-Reduction Attention, SRA) 등을 결합해 고해상도 특징 학습과 연산 효율성을 동시에 달성하려는 시도가 이루어지고 있으며(Wang et al., 2021b), CNN과 트랜스포머를 결합한 하이브리드 아키텍처(Park and Lee, 2022), 대규모 시계열·그래프 기반 데이터를 처리하는 공간–시간 동적 그래프 트랜스포머(Li et al., 2025) 등도 제안되고 있다. 본 연구에서 제안하는 BERT Hybrid 모델은 이러한 흐름과 맥락을 같이하면서, 멀티모달 농업 데이터에 특화된 양방향 어텐션 구조를 설계한다는 점에서 차별성을 갖는다.
3. 설명가능한 인공지능
딥러닝 모델의 해석가능성은 신뢰성과 도입을 위해 중요하다. 사용자는 모델의 결정 과정을 이해하지 못하면 해당 예측을 신뢰하기 어렵기 때문이다(Ahn et al., 2021). 농업 분야에서는 모델의 예측 근거를 파악하여 작황 변동 원인을 설명하거나 의사결정에 활용하는 것이 요구된다. 최근 연구에 따르면 트랜스포머의 어텐션 패턴이 작물의 생육 주기상 중요한 시점과 밀접하게 대응됨이 밝혀졌다(Kong et al., 2025). 이는 어텐션 가중치를 이용해 모델이 어느 시기에 어떤 정보를 중시하는지 설명할 수 있는 가능성을 시사한다. 다만, “어텐션이 곧 설명은 아니다(Attention is not explanation)”라는 비판도 존재하여, 어텐션 메커니즘을 활용한 해석에 신중을 가져야 한다(Jain and Wallace, 2019; Huang et al., 2024). 현재 XAI 연구는 Grad-CAM, LIME(Local Interpretable Model-agnostic Explanations), SHAP(SHapley Additive exPlanations) 등 시각화 기법과 특성 중요도 분석을 통해 복잡한 모델의 결정 과정을 인간이 이해하기 쉽게 만드는 데 주력하고 있으며, 이러한 투명성 확보는 농업 AI에서도 점차 강조되고 있다(Rudrakar and Rughani, 2023).
연구 방법
1. 데이터셋
본 연구에서 사용한 멀티모달 데이터셋은 TinyCropNet 벤치마크 데이터셋을 기반으로 하여(Lin, 2023) Sentinel-2 위성영상, HRRR(High-Resolution Rapid Refresh) 기상 시계열 자료, 그리고 토지 피복 레이블로 구성되어 있으며, 서로 다른 성격의 정보를 통합하여 학습에 활용할 수 있도록 설계되었다. TinyCropNet은 미국 중서부 농업 지대(아이오와, 일리노이, 인디애나 주 등)를 대상으로 2019-2021년 기간 동안 구축된 공개 데이터셋으로, 총 4,000개 이상의 샘플 지점을 포함하고 있다.
먼저 Sentinel-2 위성영상은 유럽우주국에서 제공하는 다중스펙트럼 관측 자료로, 공간해상도 10m 수준의 비교적 고해상도 이미지를 제공한다. 본 연구에서는 미국 중서부의 주요 농업 지역을 중심으로 1년간의 생육 기간(4월-10월) 동안 월 단위로 촬영된 영상을 활용하였다. 각 영상은 Blue, Green, Red, Red-Edge, NIR(Near-Infrared) 등 총 13개의 스펙트럼 밴드로 구성되어 있으며, 작물의 생육 단계별 변화와 지표면 특성을 반영하는 중요한 정보를 포함한다. 위성 영상은 지역을 64×64 픽셀 크기의 패치 단위로 분할해 구성하였으며, 동일한 위치에 대해 서로 다른 시기에 촬영된 영상이 순차적으로 누적되는 형태로 시계열 구조를 형성한다.
영상 정보와 함께 HRRR 기상 시계열 데이터가 결합되어 멀티모달 입력을 구성한다. HRRR은 미국 국립해양대기청(NOAA)에서 제공하는 3 km 공간해상도와 1시간 시간해상도의 고해상도 기상 모델로, 해당 지역의 일별 기상 관측치를 추출하여 사용하였다. 평균 기온(2m 높이), 강수량, 상대 습도, 하향 단파 복사량(일사와 일조 관련), 풍속(10m 높이)과 같은 변수가 포함된다. 이러한 변수들은 생육 단계에서 작물의 성장과 토지 피복 상태 변화에 직접적인 영향을 미치기 때문에 중요한 보조 입력으로 활용된다. 기상 데이터는 표 형태의 시계열 특성으로 정리하여 위성영상 패치와 시간축 기준으로 맞추어 결합하였다. 이를 통해 영상에서 포착할 수 없는 단기적인 기후 변동을 모델이 함께 학습할 수 있도록 하였다.
토지 피복 레이블은 미국 농무부(USDA)의 CDL(Cropland Data Layer) 자료를 기반으로 각 지역의 주요 토지 피복 유형을 4가지 범주로 구분하여 구축되었다. 범주는 경작지(Cropland - 주로 옥수수, 대두 재배 지역), 산림(Forest), 도시지역(Urban), 수역(Water)으로 구성되며, 각 패치 단위 영상이 어떤 토지 피복 유형에 해당하는지 나타내는 정답 정보로 사용된다. 이러한 레이블은 기계학습 과정에서 감독 신호로 활용되어 모델이 영상과 기상 변수의 조합으로부터 토지 특성을 추론할 수 있도록 한다.
Figure 1은 본 연구에서 사용된 멀티모달 데이터셋의 구성을 단계적으로 설명하고 있다. 먼저 Figure 1의 (a)에서는 Sentinel-2 위성영상 패치가 제시되며, 13개 스펙트럼 밴드와 10m 공간해상도를 기반으로 한 실제 영상 예시가 포함되어 있다. (b)에서는 동일한 지역에 대해 HRRR에서 수집된 일별 기상 시계열 자료가 제시되며, 기온, 강수량, 습도, 일조 및 일사 관련 변수, 풍속 등 다양한 기상 요소가 시간 순서대로 기록된 구조를 확인할 수 있다. (c)에서는 해당 영상 및 기상 시계열에 대응하는 토지 피복 레이블이 부착된 형태가 제시되며, 한 지역 단위의 멀티모달 입력이 어떻게 구성되는지를 시각적으로 이해할 수 있다.
본 연구에서는 이와 같은 멀티모달 데이터셋을 미국 중서부의 다양한 지역에서 수집하여 학습과 검증에 적용하였다. 농경지뿐 아니라 산림 지역, 도시 지역, 하천 및 저수지 등 서로 다른 환경 조건을 포함함으로써 모델이 다양한 장면의 특성을 학습하고, 새로운 지역에 대해서도 일반화된 성능을 발휘할 수 있는지를 평가하였다. 이러한 데이터 구성과 수집 방식은 단일 모달리티에 기반한 기존 연구보다 더 복합적인 패턴을 반영할 수 있게 해주며, 특히 시계열적 변화와 공간적 분포가 중요한 농업 및 원격탐사 분야에서 모델의 학습 능력을 확장시키는 역할을 한다. 또한 Sentinel-2 위성 영상과 HRRR 기상 관측 자료는 모두 공공 데이터로서 별도의 비용 없이 반복 수집이 가능하다. 이는 예산과 인력이 제한된 소규모 농가나 지방정부도 동일한 데이터 자원을 활용해 작물 분류와 작황 진단 서비스를 구축할 수 있음을 의미하며, 현장 적용 측면에서 적정기술로서의 실용성과 확장성을 높여준다.
2. 제안모델
2.1 BERT Hybrid 모델 개요
본 연구에서 제안하는 BERT Hybrid 모델은 MMST-ViT의 멀티모달 인코딩 단계에 BERT의 양방향 어텐션 블록을 도입한 구조이다(Devlin et al., 2019; Lin et al., 2023; Huang et al., 2024). 시각 임베딩 추출에는 Pyramid Vision Transformer(PVT) 기반 백본을 사용하고(Wang et al., 2021), 기상 데이터는 다층 퍼셉트론으로 초기 인코딩한 뒤 동일한 차원으로 매핑한다. 두 임베딩 시퀀스는 하나의 통합 시퀀스로 결합되어 BERT와 유사한 트랜스포머 인코더에 입력된다. BERT Hybrid 인코더의 양방향 어텐션은 시각 정보와 기상 정보 간 상호 관계를 학습하는 핵심 역할을 한다. 예를 들어 특정 시기의 강우량 변화가 위성 영상의 식생 지수 변화와 어떻게 연관되는지를 양방향적 어텐션으로 포착한다. 모든 어텐션 블록의 출력에서는 CLS 토큰이 최종 분류 헤드로 전달되어 네 가지 토지 피복 클래스의 확률을 산출한다.
2.2 BERT Hybrid 아키텍처 구성
Figure 2는 제안된 BERT Hybrid 모델 구조를 시각적으로 나타낸 것이다. 왼쪽의 MMST-ViT는 모달별 인코딩 후 여러 단계의 트랜스포머 인코더를 거쳐 결합하는 구조이며, 오른쪽의 BERT Hybrid는 하나의 트랜스포머 인코더에서 시각과 기상 임베딩을 동시에 입력받아 교차 어텐션을 수행한다. 파란색 블록은 시각 패치 임베딩을, 녹색 블록은 시계열 기상 임베딩을 의미하며, 실선 화살표는 데이터 흐름을, 점선 화살표는 어텐션 경로를 나타낸다. BERT Hybrid에서는 모든 레이어에서 양방향 어텐션이 수행되므로, 출력 어텐션 맵을 통해 어떤 시점의 기상 정보가 영상의 어떤 위치와 연관되는지를 직접적으로 해석할 수 있다.
2.3 모델 특성 및 트레이드오프
BERT Hybrid 모델은 양방향 어텐션을 통해 두 모달 간 상호 영향을 반영하므로 기상 이상치나 영상 잡음에 대해 보다 강인한 표현을 학습할 수 있다. 또한 어텐션 가중치를 시간축과 변수축 모두에서 분석할 수 있으므로 해석가능성 측면에서 개선이 기대된다. 반면 입력 시퀀스가 길어지고 연산량이 증가하여 MMST-ViT 대비 학습 속도가 느리고 과적합 위험이 있다. 이러한 트레이드오프를 검증하기 위해 두 모델을 동일한 데이터셋에서 학습시켜 정량적으로 평가하였다.
2.4 학습 설정
두 모델은 동일한 환경에서 구현 및 학습되었다. 프로토타입 코드는 PyTorch로 개발되었으며 NVIDIA GPU RTX4090을 활용하여 학습하였다. 실험에 사용된 PyTorch 버전은 1.13, CUDA는 11.7이며, 학습 재현을 위해 랜덤 시드를 고정하였다. 하이퍼파라미터는 두 모델에 동일하게 적용하여 학습률 1e-4, 배치 크기 32, 에폭 수 50으로 설정하였다. 또한 조기 종료 기법을 적용하여 검증 손실이 5에폭 연속 악화될 경우 학습을 중단하였다.
2.5 평가 지표 및 분석 방법
본 연구에서는 두 모델의 성능과 해석가능성을 정량적으로 비교하기 위해 정확도(Accuracy), 평균 Confidence, 그리고 어텐션 기반 분포 지표를 평가 지표로 사용하였다. 정확도는 검증 데이터에서 모델의 예측이 실제 레이블과 일치한 비율로 정의된다. 평균 Confidence는 소프트맥스 출력 중 최대값의 평균으로 산출하였으며, 최근 딥러닝 모델이 보이는 과도한 확신(overconfidence) 경향을 고려해 해석 시 주의를 기울였다.
해석가능성 평가는 모델이 입력의 어느 요소(생육 단계, 기상 변수, 공간 패치)에 주목하는지를 정량적으로 파악하기 위해, 시간축 어텐션·변수축 어텐션·공간 패치 어텐션의 세 영역을 분석하였다. 이를 위해 모든 어텐션 가중치를 요소 수에 맞추어 정규화한 확률 분포 pi 로 변환한 뒤, 분포의 집중도와 불균일성을 평가하는 세 가지 지표 엔트로피(Entropy), 지니계수(Gini coefficient), 변동계수(Coefficient of Variation)를 계산하였다.
먼저, 엔트로피(Entropy)는 Shannon 정보이론에 기반하여 분포의 무질서도(uncertainty)를 측정하는 지표로, 각 축에서의 정규화된 어텐션 가중치 pi 에 대해 계산하였다.
요소 수가 서로 다를 경우를 고려하여, 본 연구에서는 엔트로피를 이론적 최대값 log2(n)으로 나누어 형태의 정규화 엔트로피를 사용하였다.
H̃값이 낮을수록 특정 요소에 어텐션이 집중되어 있음을 의미한다.
다음으로, 지니계수(Gini coefficient)는 분포의 불평등도를 나타내는 대표적 척도로, 확률 분포에 대한 표준 정의를 사용하였다.
여기서 n은 요소 수, μ = 1/n 은 정규화 분포의 평균이다. 지니계수가 높을수록 분포가 특정 요소에 편중되어 있음을 나타낸다.
마지막으로, 변동계수(Coefficient of Variation, CV)는 표준편차를 평균으로 정규화하여 값의 상대적 변동성을 비교하는 지표로 계산하였다.
CV는 요소 간 중요도 차이가 얼마나 큰지를 정량적으로 보여주며, 값이 작을수록 가중치가 보다 균등하게 분포되어 있음을 의미한다.
이러한 세 지표는 모델 내부 어텐션 구조가 입력의 어떤 요소를 중점적으로 참조하는지를 다각도로 평가할 수 있는 보조 지표로 기능한다. 본 연구에서는 각 모델에 대해 5-fold 교차검증을 수행하여, fold별 지표 값을 평균·표준편차 형태로 산출하고, 이를 통해 두 모델의 해석가능성과 예측 특성의 차이를 정량적으로 비교하였다. 또한 엔트로피·지니계수·CV의 변화가 실제 어텐션 히트맵과 어떤 의미적 차이를 가져오는지 확인하기 위해 오분류 사례와 교차어텐션 시각화 결과를 정성적으로 함께 분석하였다.
결과
1. 학습결과
두 모델을 동일 조건에서 학습한 결과를 요약하면, MMST-ViT는 높은 정확도를 보인 반면 BERT Hybrid는 낮은 정확도와 불확실한 예측 경향을 나타냈다. 한편, BERT Hybrid의 어텐션 출력은 시간 및 변수 축에서 명확한 패턴과 일관성을 보여 MMST-ViT 대비 해석이 용이하였다. 아래에서는 성능 지표, 어텐션 분포, 그리고 두 모델 특성의 트레이드오프를 상세히 비교한다.
Figure 3의 두 모델의 학습 곡선을 비교한 결과, MMSTViT가 BERT Hybrid보다 전반적으로 더 빠르고 안정적으로 최적화되는 양상을 확인하였다. 15 epoch 동안의 손실 수렴 과정에서 BERT Hybrid는 완만하지만 꾸준하게 감소하여 최종 훈련·검증 손실이 각각 0.69와 0.72에 도달하였으나, MMST-ViT는 더 낮은 0.41/0.46 수준까지 수렴하며 효율적인 최적화를 달성하였다. 정확도 또한 유사한 패턴을 보였는데, MMST-ViT는 초기 학습 단계에서 빠르게 정확도를 확보하며 최종적으로 87%/84%에 도달한 반면, BERT Hybrid 는 83%/81% 수준에서 수렴하였다. 특히 epoch 10 이후 두 모델의 차이가 더욱 뚜렷해졌는데, BERT Hybrid는 검증 정확도가 약 60% 부근에서 정체되고 검증 손실이 진동하며 증가하는 경향을 보여 과적합 징후가 나타났고, 이는 양방향 어텐션에 기반한 복잡한 구조가 소규모 데이터셋에서 일반화 성능을 저해한 것으로 해석된다. 반면 MMST-ViT는 전 과정에서 비교적 일관된 손실 감소와 검증 성능 유지가 관찰되었으며, 이는 단방향 크로스 어텐션 기반 모달 융합 방식이 안정적 학습에 기여한 것으로 판단된다. 이러한 학습 곡선의 차이는 최종 성능 격차의 구조적 원인을 설명하는 중요한 근거로 작용한다.
2. 성능 비교
Figure 4에서 전체 성능을 비교한 결과, BERT Hybrid 는 정확도 60.0%와 평균 Confidence 46.4%를 기록한 반면, MMST-ViT는 정확도 85.0%와 Confidence 59.3%로 우수한 성능을 보였다. BERT Hybrid의 낮은 확신도는 보다 보수적인 예측 성향을 나타내며, 이는 농업 의사결정에서 위험 회피적 관점에 유리하게 작용할 수 있다.
최종 평가에서 두 모델의 전체 정확도와 평균 Confidence를 비교한 결과, MMST-ViT가 성능 면에서 우세함이 확인되었다. Figure 5에 요약된 바와 같이, MMST-ViT의 전체 정확도는 85.0%로 BERT Hybrid의 60.0%를 크게 앞섰다. 이는 복합 시계열 정보를 처리하는 Transformer 구조의 효과적인 학습과 높은 표현력이 BERT Hybrid보다 뛰어났음을 의미한다. 또한 모델이 예측에 대해 갖는 평균 Confidence 역시 MMST-ViT가 59.3%로, BERT Hybrid의 46.4% 대비 높았다. 일반적으로 딥러닝 분류기는 성능이 우수할수록 자신이 예측한 클래스에 더 높은 확신도를 부여하는 경향이 있다. 다만, 앞서 언급했듯이 딥러닝 모델은 종종 잘못 예측한 경우에도 확신도가 높게 나타나는 과신 문제가 있으므로, 단순히 Confidence가 높다고 해서 해석력이 높다고 볼 수는 없다. 그럼에도 두 모델의 Confidence 차이는 MMST-ViT가 상대적으로 결정 경계가 분명하고 예측에 일관성이 있음을 뒷받침한다.
Comparison of Classification Accuracy for Cropland, Forest, Urban, and Water Classes Between the BERT Hybrid Model and MMST-ViT
먼저 경작지에서 MMST-ViT는 92.5%의 정확도를 기록하며 BERT Hybrid(87.3%) 대비 우수한 성능을 보였다. 이는 작물 생육 단계에 따라 변화하는 시계열 패턴과 Sentinel-2 밴드 간 스펙트럼 차이를 MMST-ViT의 시공간 Transformer 구조가 더 효과적으로 포착했음을 의미한다. 반면 Forest(산림) 클래스에서는 두 모델의 성능 차이가 가장 크게 드러났다. MMST-ViT는 89.2%로 높은 정확도를 유지한 반면, BERT Hybrid는 42.8%에 그쳐 절반 이하의 성능을 보였다. 이는 산림 지역의 계절적 NDVI 변화와 복잡한 식생 구조를 BERT 기반 양방향 어텐션이 충분히 강조하지 못했기 때문으로 해석된다.
Urban(도시) 클래스에서는 BERT Hybrid가 78.6%, MMST-ViT가 85.4%로 두 모델 모두 비교적 높은 정확도를 보였다. 도시 지역은 인공 구조물의 고정된 형태와 명확한 스펙트럼 특성을 가지므로 모델 간 차별적 성능 차이가 크게 나타나지 않는 경향을 보여준다. 한편 Water(수역) 클래스에서는 BERT Hybrid가 81.2%, MMST-ViT가 73.6%를 기록하며, BERT Hybrid가 오히려 더 높은 정확도를 달성하였다. 이는 수역의 스펙트럼 특징이 단순하고 시계열 변화가 적기 때문에, BERT의 양방향 어텐션 구조가 오히려 노이즈를 억제하며 안정적인 분류 성능을 보였을 가능성을 시사한다.
종합하면 MMST-ViT는 네 클래스 대부분에서 더 높은 정확도와 안정적인 분류 성능을 보인 반면, BERT Hybrid는 클래스별 편차가 크고 특히 Forest 클래스에서 성능이 급격히 저하되는 한계를 보였다. 이러한 분석은 각 모델의 구조적 차이가 특정 토지 피복 클래스에 대해 어떻게 작용하는지를 명확히 보여주며, 향후 멀티모달 모델 설계 시 고유한 패턴과 특징을 모델이 안정적으로 학습하는 능력의 중요성을 강조한다.
3. 어텐션 비교
3.1 시간축 어텐션 분석
모델 성능뿐 아니라 해석가능성의 핵심인 어텐션 메커니즘을 다각도로 분석하였다. 두 모델의 어텐션 가중치 분포를 시간축과 변수축 관점에서 비교하고, 분포의 집중도 지표를 측정하여 정량적으로 평가하였다.
Figure 6은 10개 검증 샘플에 대해 생육 단계별(파종, 출아, 생육, 개화, 결실, 성숙) 시간축 어텐션 가중치를 히트맵으로 시각화한 것이다. 색이 진할수록 해당 시점에 대한 모델의 주목도가 높음을 의미한다. 전체적으로 대부분의 샘플에서 개화와 결실 단계에 강한 어텐션이 집중되며, 이는 작물 분류 판단에 중후반 생육 단계 정보가 더 중요한 역할을한다는 점을 보여준다. 특히 Sample 1, 4, 5, 7 등에서 동일한 패턴이 반복되어, 모델이 생육 후반부의 스펙트럼 및 시계열 변화를 주요 근거로 활용하고 있음을 확인할 수 있다.
Heatmap of Temporal Attention Weights Across Six Growth Stages Seeding to Maturation for 10 Validation Samples Using the BERT Hybrid Model
또한 샘플 간 어텐션 패턴을 비교해 보면, 전체적인 집중 구간은 유사하게 유지되면서도 각 샘플은 일부 시점에서 미세한 차이를 보인다. 이는 모델이 일정한 핵심 시점(예를 들어 개화기와 결실기)을 중심으로 판단하되, 데이터별 특성을 반영해 세부적 가중치를 조정하고 있다는 의미로 해석된다. 이러한 시간축 집중 영역의 안정성은 모델이 입력 시계열 내 중요한 생육 구간을 일관되게 강조하고 있음을 시사하며, 이는 해석가능성과 모델 신뢰성 측면에서 긍정적이다.
Figure 7은 생육 단계별 어텐션 비율 비교 결과로, BERT Hybrid는 중·후반 생육기에 어텐션이 집중되어 초기의 중요도가 낮으며, MMST-ViT는 전 시기에 비교적 고른 분포를 보인다. 생육 초기(파종기), 중기(생장기), 후반(수확기) 세 구간으로 나누어 각 모델의 시간축 어텐션 비중을 합산한 결과, MMST-ViT는 3구간 모두 30~40% 내외로 고른 분포를 보였지만, BERT Hybrid는 중기와 후반에 대부분의 어텐션이 쏠려 초기 단계의 어텐션 비율이 10% 미만으로 매우 낮았다. 특히 후반기(예를 들어 8월에서 9월)에 BERT Hybrid가 높은 비중을 두고 있으며, 이는 작물 분류에 있어 수확 직전의 상태가 결정적 단서임을 모델이 학습한 것으로 풀이된다.
Table 1은 시간축 어텐션 분포의 정량적 지표를 비교한 결과이다. 두 모델의 어텐션 가중치를 각각 100%로 정규화 한 후 분포 특성을 비교하였으며, 이하 모든 지표는 정규화된 값을 기준으로 계산되었다.
BERT Hybrid의 표준편차는 7.11로 MMST-ViT의 2.13보다 높았으며, 변동계수(CV) 역시 BERT Hybrid 42.7, MMSTViT 12.8로 동일한 경향을 확인하였다. 엔트로피 분석 결과, BERT Hybrid는 2.433 bits로 MMST-ViT의 2.573 bits에 비해 낮아, 정보 집중도가 높은 것으로 나타났다. 지니계수는 BERT Hybrid 0.178, MMST-ViT 0.071로 BERT Hybrid의 불평등도가 현저히 높았다.
어텐션 범위는 BERT Hybrid 17.61, MMST-ViT 6.24로 BERT Hybrid가 약 2.8배 넓었다. 이는 BERT Hybrid가 결실기(23.97)에 최대 어텐션을 배분하고 파종기(6.36)를 거의 무시하는 '선택적 집중' 전략을 취하는 반면, MMST-ViT는 모든 시기에 13.25~19.49 범위에서 일관되게 어텐션을 유지하는 '전면적 고려' 전략을 사용함을 보여준다.
3.2 기상 변수 중요도 분석
기상 변수 중요도를 비교하기 위해 어텐션 메커니즘 중 기상 임베딩과 시각 임베딩 사이의 상호 어텐션 가중치를 분석하였다. 모든 시간 단계에 걸쳐 변수별 가중치를 합산하고 정규화하여 모델이 어떤 기상 요인에 얼마나 주목하는지를 평가하였다. Figure 8은 각 변수에 할당된 평균 어텐션 비율을 두 모델 간 나란히 보여준다. MMST-ViT의 경우 변수 중요도가 비교적 균일하지 않고 편차가 큰 모습이었다. 예를 들어 강수량 변수에 40% 이상의 높은 비중을 두는 한편, 평균 기온과 일조 시간에는 각각 20%, 15% 정도로 낮은 가중치를 부여했다. 반면 BERT Hybrid는 모든 기상 변수에 고르게 20~30% 내외의 비중을 할당하여, 특정 변수에 과도하게 의존하지 않는 특성을 보였다.
Table 2는 기상 변수 중요도 분포의 정량적 지표를 비교한 결과이다. 기상 변수 중요도는 백분율로 정규화되어 있으므로(합=100%), 두 모델 간 직접 비교가 가능하다.
BERT Hybrid의 표준편차는 6.82로 MMST-ViT의 8.96보다 낮아, 변수 간 중요도 변동성이 작음을 확인하였다. 변동계수(CV)는 BERT Hybrid 40.9, MMST-ViT 53.7로 BERT Hybrid의 일관성이 우수하였다.
엔트로피 분석에서는 BERT Hybrid 2.504 bits, MMST-ViT 2.393 bits로 BERT Hybrid가 변수 간 더 균등한 분포를 형성함을 확인하였다. 이는 시간축 분석 결과(BERT 2.433 bits < MMST 2.573 bits)와 상반되는 패턴으로, BERT Hybrid가 시간축에서는 집중 전략을, 변수축에서는 균형 전략을 사용함을 의미한다.
지니계수는 BERT Hybrid 0.156, MMST-ViT 0.218로 BERT Hybrid의 변수 간 불평등도가 낮았다.
종합하면, BERT Hybrid는 시간축에서는 높은 집중도(낮은 엔트로피 2.433 bits, 높은 지니계수 0.178)를, 변수축에서는 높은 균등성(높은 엔트로피 2.504 bits, 낮은 지니계수 0.156)을 보이는 이중적 특성을 나타냈다. 이는 모델이 '언제(when)' 주목할지는 선택적으로, '무엇을(what)' 고려할지는 포괄적으로 판단함을 의미하며, 해석가능성 측면에서 매우 유용한 특성이다.
4. 트레이드오프 논의
본 연구의 결과는 멀티모달 농업 분류에서 예측 성능과 해석가능성 간의 트레이드오프가 존재함을 보여준다. MMST-ViT는 다중 트랜스포머 구조를 통해 높은 정확도를 달성하며, 복잡한 시공간 패턴을 정교하게 학습한다는 장점이 있다. 그러나 이러한 구조적 복잡성은 모델의 의사결정 과정이 블랙박스 형태로 남게 되어, 어떤 입력 요소가 예측에 영향을 미쳤는지를 추적하기 어렵다는 문제가 있다.
반면, 본 연구에서 제안한 BERT 양방향 어텐션 Hybrid 모델은 시간축·변수축 어텐션 패턴이 명확하게 드러나며, 어느 시점과 어떤 기상 변수가 예측에 영향을 주었는지를 직관적으로 파악할 수 있는 장점이 있다. 하지만 양방향 어텐션을 통해 정보 흐름을 평탄화한 결과, 예측 성능은 MMSTViT에 비해 저하되었다. 즉, 해석 가능성을 높이기 위해 구조를 단순화하거나 어텐션의 자유도를 줄이면, 모델이 학습할 수 있는 표현력이 감소하여 성능 저하로 이어질 수 있음을 확인하였다.
중요한 점은 해석가능성이 단순히 부가적인 요소가 아니라, 실제 모델 개선을 위한 피드백 도구가 될 수 있다는 것이다. 예를 들어 BERT Hybrid의 어텐션 분석을 통해 특정 생육 시기 또는 특정 기상 변수가 중요한 단서임을 발견하면, 이를 MMST-ViT의 입력 구성이나 특징 엔지니어링에 반영하여 예측 모델의 성능을 향상시키는 데 활용할 수 있다. 즉, 설명가능성은 고성능 모델을 보완하는 실질적 도구로 기능할 가능성이 있으며, 이는 농업 분야에서 신뢰 기반 의사결정을 지원하는 데 필수적 요소이다.
종합하면, 본 연구는 예측 정확도와 해석가능성 간의 상충 관계를 실증적으로 제시하였으며, 두 요소의 균형적 고려가 중요함을 강조한다. 고정밀 예측이 필요한 업무에서는 MMST-ViT와 같은 고성능 모델이 적합하지만, 의사결정의 근거를 설명해야 하는 상황에서는 BERT Hybrid와 같은 투 명성이 높은 모델이 더 실용적일 수 있다. 향후 연구에서는 두 모델의 강점을 통합하는 방향—예를 들어 고성능 모델과 해석 모델의 앙상블, 또는 구조적 투명성을 높인 트랜스포머 설계를 탐색할 필요가 있다. 이러한 접근은 성능과 해석의 간극을 줄이는 동시에, 실제 현장에서 신뢰할 수 있는 농업 AI 시스템 구축에 기여할 수 있을 것이다.
결론
본 연구에서는 BERT 양방향 어텐션 Hybrid 모델과 MMST-ViT 모델을 농업 멀티모달 데이터 분류 과제에서 비교 분석하였다. 요약하면 MMST-ViT는 높은 정확도(85.0%)로 우수한 예측 성능을 보였지만, 어텐션 분포가 분산되어 모델의 의사결정 근거 해석이 어려웠다. 반면 BERT Hybrid 는 정확도는 낮았으나(60.0%), 시간·기상 요소별 중요도를 명확히 보여주는 어텐션으로 해석가능성 측면에서 장점을 보였다. 구체적으로 BERT Hybrid는 생육 중후반에 집중된 어텐션 패턴과 균형 잡힌 기상 변수 중요도를 나타내어, 모델이 주목하는 핵심 시기와 환경인자를 도출할 수 있었다. 정량적으로는 어텐션 분포의 표준편차 및 변동계수가 절반 수준으로 감소하고 엔트로피도 낮아져, 모델 집중도가 높아짐을 확인했다. 이는 모델의 판단 근거가 명료화되었음을 의미한다. 특히 제안된 분석 프레임워크는 공개 위성자료와 기상 데이터만을 입력으로 사용하므로, 추가 인프라 구축 비용 없이 소프트웨어적 개선만으로 다양한 지역과 작물에 확장 가능한 점에서 적정기술 관점의 활용 가능성이 크다.
한편, 본 연구의 한계로는 데이터셋 규모와 다양성이 충분하지 못해 결과 일반화에 유의해야 한다는 점이 있다. 특정 지역의 자료로 학습되어 다른 환경에서 동일한 경향이 나타날지 추가 검증이 필요하다. 또한 BERT Hybrid 모델의 구조 최적화가 충분히 이루어지지 않아, 향후 파라미터 경량화나 사전학습 활용 등을 통해 성능 향상 가능성이 있다. 나아가 어텐션 가중치만으로 해석을 판단한 접근의 한계도 존재한다. 어텐션 이외의 기여도 분석 기법(예: SHAP 값)과 결합하여 종합적인 설명을 제공하는 연구가 이어져야 할 것이다.
향후 연구에서는 정확도와 해석가능성의 균형 잡힌 모델 설계를 모색할 것을 제안한다. 한 가지 방향은 모델 앙상블 또는 하이브리드 기법으로, MMST-ViT의 예측력과 BERT Hybrid의 투명성을 결합하는 것이다. 예를 들어 MMST-ViT 로 예측을 수행하되 BERT Hybrid로 설명용 어텐션 맵을 생성하여 사용자에게 제시하는 방식도 고려할 수 있다. 또 다른 방향으로, 최근 등장한 대규모 사전학습 모델(Foundation Model)들을 활용하면 데이터 효율성과 성능을 높이면서도 사전학습 단계의 풍부한 지식을 통해 자연스러운 설명을 얻을 수 있을 것으로 기대된다. 마지막으로, 사용자 연구를 통해 어떤 형태의 해석이 도메인 전문가들에게 가장 유용하고 신뢰를 주는지도 평가해야 한다. 해석가능성 부족은 AI 시스템 채택의 걸림돌이 되므로, 농업 분야 의사결정에 AI를 활용하기 위해서는 모델의 예측뿐 아니라 이유를 함께 제공하는 노력이 필수적이다. 본 연구는 멀티모달 딥러닝 모델의 성능과 해석가능성을 체계적으로 비교함으로써, 투명하고 신뢰할 수 있는 농업 AI를 향한 기반 지식을 제공하였다(Zhang et al., 2025). 향후에는 더 다양한 데이터와 모델을 대상으로 이러한 분석을 확장함으로써, 고성능과 고해석성의 격차를 좁히는 연구를 지속적으로 수행해 나갈 예정이다.
Notes
Acknowledgments
Following are results of a study on the "Convergence and Open Sharing System" Project, supported by the Ministry of Education and Nation Research Foundation of Korea.