기계학습을 이용한 확장형 건강 데이터 기반의 개인화 당뇨병 예측 기법

Personalized Diabetes Prediction Method Using Machine Learning Based on Expanded Health Data

Article information

J Appropr Technol. 2025;11(3):153-160
Publication date (electronic) : 2025 December 30
doi : https://doi.org/10.37675/jat.2025.00710
1Dept. of Public Health, Sahmyook University, Seoul 01795, Republic of Korea
2Dept. of Division of Artificial Intelligence Convergence, Sahmyook University, Seoul 01795, Republic of Korea
3Dept. of Smart Contents, Pyeongtaek University, Pyeongtaek 17869, Republic of Korea
이소정1, 최지웅2, 이채린1, 김종완3,
1삼육대학교 보건관리학과, 서울특별시 화랑로 815 (01795), 대한민국
2삼육대학교 인공지능융합학부, 서울특별시 화랑로 815 (01795), 대한민국
3평택대학교 스마트콘텐츠학과, 경기도 평택시 서동대로 3825 (17869), 대한민국
To whom correspondence should be addressed. E-mail: kimj@ptu.ac.kr
Received 2025 August 13; Accepted 2025 November 24.

Abstract

본 연구는 기계학습 기반 인공지능(AI) 알고리즘인 AdaBoost 분류기를 활용하여 다양한 건강 지표를 통합한 개인 맞춤형 당뇨병 예측 모델을 제안한다. 2022년 국민건강영양조사(KNHANES) 데이터를 기반으로, 기존의 생리학적 진단 지표인 공복 혈당과 당화혈색소(HbA1c) 외에 연령, 체질량지수(BMI), 요당(urine sugar), A형 간염 항체, 혼인 상태를 포함한 확장 변수를 적용하였다. 제안 모델은 5-fold 교차검증을 통해 정확도, 정밀도, 재현율, F1-score에서 78%의 성능을 보였으며 이는 확장된 건강 속성을 포함한 다변량 분석으로 달성한 결과라는 점에서 유의미하다. 특히 기존의 전통적 지표 중심의 모델 대비, 예측의 균형성과 안정성이 향상되었으며 결과적으로 다양한 건강 속성에 기반한 당뇨병 조기 위험군 식별과 위험군 식별과 예방 중심 건강관리 전략 수립에 기여할 수 있음을 보여준다.

Trans Abstract

This study proposes a personalized diabetes prediction model by employing the AdaBoost classifier, a machine learningbased artificial intelligence (AI) algorithm, to integrate diverse health indicators. Using data from the 2022 Korea National Health and Nutrition Examination Survey (KNHANES), the model incorporates extended variables—including age, body mass index (BMI), urine sugar, hepatitis A antibody, and marital status—in addition to traditional physiological diagnostic indicators such as fasting blood glucose and glycated hemoglobin (HbA1c). The proposed model achieved 78% performance in accuracy, precision, recall, and F1-score under 5-fold cross-validation, which is meaningful as it was obtained through multivariate analysis with extended health attributes. Compared to conventional models centered on traditional indicators, the proposed approach demonstrated improved balance and stability in predictions, thereby contributing to the early identification of high-risk groups and the establishment of prevention-focused healthcare strategies.

서론

1. 연구 배경 및 필요성

당뇨병은 전 세계적으로 급격히 확산되는 대표적 만성질환으로, 국내에서도 고령화와 함께 유병률이 지속적으로 증가하고 있다. 2020년 기준, 국내 30세 이상 성인의 약 6명 중 1명이 당뇨병을 앓고 있으며, 특히 65세 이상 고령층에서는 3명 중 1명꼴로 보고된다(Diabetes Korea, 2024).

당뇨병은 초기 증상이 경미해 조기 발견이 어렵고, 적절히 관리하지 않으면 심혈관 질환, 신부전, 실명 등 심각한 합병증을 유발한다. 이에 따라 조기 진단과 예방적 개입은 개인 건강뿐만 아니라 사회적 의료비 절감에도 중요한 역할을 한다.

2. 기존 연구의 한계

기존의 당뇨병 연구는 주로 전통적인 생리학적 지표인 혈당, 당화혈색소(HbA1c) 등에 의존하여 위험도를 산출하였으나, 다양한 사회·행동적 요인을 충분히 반영하지 못했다. 즉, 기술적 역학 분석(descriptive epidemiological analysis)을 통해 질병 분포와 유병률을 파악하는 데 초점을 두었다(Kwon, 2023). 이러한 접근은 위험 집단 식별에는 유용하나, 사회역학적 속성(social epidemiological attributes)과의 상호작용을 반영한 환경적·행동적 요인의 통합 예측 모델로 확장하는 데 한계가 있다.

3. 연구 목적 및 기여

본 연구는 인공지능의 기계학습을 활용해 당뇨병 예측의 정확성과 실용성의 향상을 목표로 하며, 2022년 국민건강영양조사(KNHANES) 데이터를 기반으로(KNHANES Ⅸ-1, 2023), 공복 혈당·당화혈색소 등 기존 진단 지표 외에 연령, 체질량지수(BMI), 요당(urine sugar), A형 간염 항체, 혼인 상태의 다섯 가지 비전통적 건강 속성을 포함한 다변량 예측 모델을 설계한다(Kwon, 2023; WHO, 2024).

본 연구는 2024년 ACK 학술대회 발표 모델(Lee et al., 2024)를 기반으로 변수 구성과 기계학습 알고리즘을 확장·정밀화하고, 5-fold 교차검증을 통해 일반화 성능을 검증한다. 또한 정확도, 정밀도, 재현율, F1-score 등 전 지표에서 성능 향상을 목표로 하여 기존 연구의 실용성과 적용 범위를 확장한다.

본 연구의 기여점은 다음과 같다.

첫째, 정통적·생리학적 지표와 사회역학적 속성을 통합한 다변량 분석을 통해 당뇨병 예측의 새로운 가능성을 확장한다.

둘째, 공공 건강 데이터를 활용해 17종의 기계학습 알고리즘을 비교하고, AdaBoostClassifier의 예측력을 실증한다.

셋째, 데이터 기반 조기 예측 모델 설계 절차와 알고리즘 구조를 제시하여, 향후 예방의료 전략 수립에 참고할 수 있는 실용적 프레임워크를 제공한다.

관련 연구

1. 당뇨병 현황

2020년 대한당뇨병학회 자료에 따르면, 30세 이상 한국 성인 중 약 16.7%가 당뇨병을 앓고 있으며 공복 혈당만을 기준으로 하면 유병률은 14.5%로 낮아지지만, 여전히 7명 중 1명이 해당 질환을 보유한다(Diabetes Korea, 2024). 특히 65세 이상에서는 유병률이 30.1%에 달해 고령층 3명 중 1명이 당뇨병 환자인 것으로 나타났다. 30세 이상 성인은 약 526만 명에 해당하여 당뇨병이 국가 의료 재정과 국가 의료 재정과 사회 생산성에 광범위한 부담을 주는 만성 질환임을 보여준다(Asan Medical Center, 2023). 그럼에도 적절한 관리 상태에 있는 환자 비율은 30% 미만으로 보고되고 있다(Health Promotion Institute, 2022). 이에 따라 보건당국은 조기 진단, 생활습관 개선, 만성질환 등록관리사업 등 공중보건 정책을 확대하고 있으며, 이는 환자의 삶의 질 향상과 의료비 절감에 기여할 수 있다(KDCA, 2024).

2. 당뇨병의 주요 요인

당뇨병은 실명, 신부전, 심근경색, 뇌졸중, 하지 절단 등의 주요 원인이며, 고혈당은 심혈관계 질환 발생 위험을 높이는 핵심 요인이다(Korea Health Portal, 2023). 심혈관 사망의 약 20%는 당뇨병과 관련되며, 2000~2019년 사이 당뇨병 관련 사망률은 고령층에서 연평균 3% 증가하였다(Korea National Statistical Office, 2021). 주요 증상으로는 과도한 갈증, 잦은 배뇨, 시야 흐림, 만성 피로, 원인 불명의 체중 감소 등이 있으며, 이는 질환 진행 정도에 따라 다양하게 나타난다(CDC, 2023).

비만, 고지방·고열량 식단, 만성 스트레스, 과음 등은 당뇨의 발병 위험을 높이며, 특히 비만은 인슐린 저항성을 증가시켜 제2형 당뇨병 위험을 크게 높인다(CDC, 2023; Korea Diabetes Association, 2023). 따라서 연 1회 이상의 정기 혈당검사와 고위험군 조기 선별, 자가관리 역량 강화 프로그램이 병행될 필요가 있다(Ministry of Health and Welfare, 2023).

3. 당뇨병을 위한 AI 모델

기계학습 기반 인공지능(AI) 기술은 최근 의료 데이터 분석에 폭넓게 적용되고 있으며, 당뇨병 예측 분야에서도 활발히 활용되고 있다. 기존 연구는 공공 보건 데이터와 전통적인 생리학적 지표를 중심으로 다양한 알고리즘을 개발해 왔으며(Abnoosian et al., 2023), 성능 비교에 중점을 두는 경향이 있다(Yize, 2025). 그러나 기존의 접근 방식은 다음과 같은 한계를 지닌다.

첫째, 변수의 제한성으로 인해 사회·행동적 요인 등 비전통적 속성이 충분히 반영되지 못한다. 둘째, 변수 간 상호작용 분석의 부족으로 인해 임상에서 나타나는 복잡한 요인을 정교하게 반영하지 못한다. 셋째, 높은 성능을 가진 모델임에도 해석 가능성이 부족하여 실제 임상 적용에는 어려움이 따른다(Frasca et al., 2024).

예를 들면, A형 간염과 당뇨병 간의 연관성이 일부 보고된 바 있으나, 항체 보유 여부와 당뇨병 위험 간의 통계적 상관관계를 규명한 연구는 드물다. 본 연구는 이러한 한계를 보완하기 위해, 앞서 정의한 확장된 건강 속성들을 통합하고 AdaBoostClassifier를 적용한 예측 모델을 설계하였다. 이 모델은 단순한 성능 향상을 넘어, 고위험군의 조기 식별과 개인 맞춤형 건강관리의 기반 마련에 기여할 수 있다.

제안 방법

1. 데이터 전처리

본 연구에서는 2022년 국민건강영양조사 데이터를 기반으로, 당뇨병 예측을 위한 기계학습 모델을 구축하였다(KDCA, 2022). 사용된 데이터셋은 총 7,380명의 건강 정보이며 확장된 건강 속성을 포함하고 있다.

모델의 성능 향상과 안정적인 학습을 위해 전처리를 수행하였다. 먼저 일부 변수에서 나타난 결측치는 전체 샘플의 평균값으로 대체하였으며, 결측 비율이 과도한 항목은 분석에서 제외하였다. 범주형 변수는 이진 변수로 변환하여 모델 입력에 적합하게 구성하였다. 또한 수치형 변수는 특성 간 스케일(scale) 차이로 인한 학습 편향을 방지하기 위해, 전처리 과정의 일환으로 수식 (1)과 같이 Min-Max(Han et al., 2011) 정규화를 적용하여 데이터를 0과 1 사이로 변환하였다. 이를 통해 알고리즘의 수렴 속도를 높이고, 변수 간 균형 있는 반영으로 예측 성능을 향상시키고자 하였다.

(1) xi=ximin(x)max(x)min(x)

본 연구에서는 레이블을 다중 클래스 문제로 정의하기 위해 수식 (2)와 같이 각 개인의 다섯 가지 확장 변수의 총합(sumval)을 기준으로 위험 등급을 부여하였다. 이때 레이블(label)은 세 가지 단계인 정상(0), 경계(1), 고위험군(2)으로 분류된다. 여기서 sumval은 xij로 나타내며 i번째 사람의 j번 째 확장 속성값을 의미한다. 즉, sumval은 개인이 가진 다섯가지 속성의 합이다. 이러한 분류는 단일 진단 수치보다 개인의 건강 상태를 다면적으로 반영할 수 있어서 예측 정밀도와 임상적 활용의 가능성을 함께 고려한 접근이다.

(2) label=0ifsumval<11if1sumval2,2if2<sumvalsumvali=j=15xij

전처리는 단순히 데이터 형식을 맞추는 사전 작업을 넘어서, 모델의 신뢰도와 해석력을 결정짓는 핵심적인 과정이다. 특히, 본 연구처럼 다양한 생리학적·사회적 요인을 통합한 예측 모델에서는 각 속성이 균형 있게 작동할 수 있도록 전처리의 설계가 정교하게 이루어져야 한다. 전처리는 이후 단계의 학습 효율성을 높이고, 실질적 예측 성능을 확보하기 위해 사용된다.

2. 예측 알고리즘 설계

본 연구에서는 당뇨병 예측 정확도를 향상시키기 위해 기계학습의 앙상블 기법인 AdaBoost(adaptive boosting) 알고리즘을 활용하였다. AdaBoost는 여러 개의 약한 분류기(weak learners)를 순차적으로 학습시켜, 이들을 조합함으로써 예측력이 높은 강한 분류기(strong learner)를 생성하는 방법이다. 각 반복 단계에서는 이전 단계에서 잘못 분류된 샘플에 더 많은 가중치를 부여하고, 이후 학습기에서 이를 보다 정확히 분류하도록 유도함으로써 전체적인 오류를 점진적으로 감소시킨다. 이 과정은 기본적으로 분류 오류에 대한 적응적 보정을 통해 모델의 예측력을 강화하는 구조를 가진다.

AdaBoost 알고리즘의 작동 원리는 다음과 같다. 초기 단계에서는 모든 학습 샘플에 동일한 가중치를 부여하고 첫 번째 약한 분류기를 학습시킨다. 이후 해당 분류기의 예측 오류율(εt)을 계산하고, 이를 기반으로 학습기의 신뢰도 가중치(αt)를 수식 (3)과 같이 산출한다. 잘못 분류된 샘플은 가중치를 증가시키고, 올바르게 분류된 샘플은 가중치를 감소시켜, 이후 학습기가 오분류 샘플에 더 집중하도록 설계한다. 이 과정을 T회 반복하여 T개의 약한 분류기를 학습한 뒤, 각 학습기의 예측 결과를 αt 의 가중합으로 통합해 최종 예측을 수행한다.

(3) αt=12ln1εtεt

본 연구에서는 scikit-learn 라이브러리의 AdaBoostClassifier를 사용하였으며, 약한 학습기로 최대 깊이 1의 결정트리(DecisionTreeClassifier)를 채택하였다. 예측 모델의 입력은 전처리를 거친 5개의 건강 속성으로 구성하였으며, 각 샘플의 클래스 레이블은 총합 점수(sum_val)에 따라 정상, 경계, 고위험군의 세 범주로 구분하였다.

Figure 1은 연구에서 수행한 예측 모델 구현 알고리즘이다. 본 알고리즘은 설문 기반의 비전통적 특성 데이터를 활용하여 AdaBoostClassifier 모델을 학습 및 평가하는 절차를 정의한다.

Figure 1.

Training and Evaluation Algorithm

1행에서는 7,380개의 샘플과 5개의 문항으로 구성된 입력 데이터의 크기를 각각 변수 N과 Q로 설정한다. 무작위성의 재현성(reproducibility)을 확보하기 위해 랜덤 시드를 42로 고정한다(2행). 이후, 부동소수점(float64) 타입으로 구성된 입력 특성 행렬 X를 생성하며, 이는 (7380, 5)의 형태를 갖는다(3행).

각 샘플의 다섯 문항 점수를 합산하여 총합 (sum_val)을 계산한 후 (4 행 ), 이를 기준으로 세 가지 클래스 레이블을 할당한다 (5 행 ). 구체적으로는 sum_val 이 1 미만일 경우는 클래스 0, 1 이상 2 이하이면 클래스 1, 2 초과는 클래스 2로 분류된다 .

6행에서는 완성된 입력 데이터 (X, y)를 학습용(80%)과 테스트용(20%)으로 분할하여 모델 훈련 및 성능 평가를 위한 데이터셋을 구성한다. 7행과 8행에서는 AdaBoostClassifier 모델을 초기화하고, 학습 데이터를 이용해 모델을 훈련시킨다. 이후 9행에서는 테스트 데이터를 이용하여 학습된 모델의 예측 결과를 산출한다.

모델의 예측 성능은 10행에서 실제 정답과의 비교를 통해 정확도(accuracy), 정밀도(precision), 재현율(recall), F1-score가 평가되며, 마지막으로 11행에서는 결과 값을 반환하여 모델 성능에 대한 최종 결과를 제공한다.

실험 및 분석

1. 모델 학습 및 평가 절차

본 연구에서는 최종 예측 모델의 객관성과 신뢰도를 확보하기 위해, 먼저 17개의 대표적인 분류 알고리즘을 동일한 데이터셋과 4개의 성능지표를 기준으로 비교·분석하였다. 이를 통해 당뇨병 예측에 가장 적합한 분류기를 선별한 결과, AdaBoostClassifier가 전반적인 성능에서 우수한 결과를 보여 최종 모델로 채택되었다.

실험에는 2022년 국민건강영양조사에서 수집한 총 7,380개의 샘플 데이터를 사용하였다. 데이터셋은 무작위 분할(random split)을 적용하여 학습용 80%와 테스트용 20%로 나누었으며, 재현성 확보를 위해 무작위 시드(seed)는 42로 고정하였다. 모델 학습 시 약한 학습기(weak learner)는 최대 깊이 1의 결정 트리(DecisionTreeClassifier)를 사용하고, 추정기(estimators) 수는 50으로 설정하였다.

실험에 사용된 세부 설정은 Table 1과 같다.

Model Training and Evaluation Settings

전반적인 모델 성능의 일반화 가능성을 높이기 위해 Figure 2와 같이 5-겹 교차검증(5-fold cross-validation)을 병행하였다. 전체 데이터셋은 5개의 폴드로 균등하게 분할되며, 각 반복에서 하나의 폴드가 테스트 세트로 사용되고 나머지 폴드는 학습 세트로 사용된다. 이를 통해 모든 데이터 샘플이 한 번씩 테스트에 포함되어 모델의 일반화 성능을 보다 신뢰성 있게 평가할 수 있다.

Figure 2.

5-Fold Cross-Validation

2. 정확도

정확도(Accuracy)는 전체 예측 중 실제 정답과 일치한 비율을 나타내며, 다중 클래스 분류 문제에서 모델의 전반적인 예측 성능을 측정하는 가장 기본적인 지표이다. 본 연구에서는 수식 (4)를 통해 정확도를 계산하였다.

(4) Accuracy=TP+TNTP+TN+FP+FN

TP(True Positive)는 양성 샘플을 양성으로 판단한 긍정적 사실을 의미한다. TN(True Negative)는 음성 샘플을 음성으로 올바르게 분류한 것으로 TP와 같이 정탐에 해당한다. FP(False Positive)와 FN(False Negative)는 각각 오탐과 미탐으로 구분하며 FP는 탐지는 하였으나 잘못된 탐지에 해당한다. FN은 비정상적인 것을 정상으로 판단하여 탐지를 못한 결과로 잘못된 예측을 나타내며 FN을 최소화하는 것이 성능을 높인다.

실험 결과, Figure 3에서 AdaBoostClassifier는 약 78%의 정확도를 기록하였으며, 비교된 다른 모델들보다 우수한 성능을 보였다. 이는 반복 학습을 통해 오분류를 보정하는 AdaBoost의 구조적 강점과, 본 연구에서 정의한 다섯 가지 확장 속성이 복합적으로 작용한 결과로 해석된다.

Figure 3.

Accuracy Comparison of Classification Models

정확도는 클래스 불균형이 존재하는 데이터에서는 전체 성능을 과대평가할 수 있다. 특히 본 연구에서 활용된 데이터에는 아동 대상 샘플이 일부 포함되어 있으며, 이들은 생리적·환경적 특성이 성인과 달라 예측 오류가 발생할 가능성이 있다. 해당 집단에서의 오분류는 전체 정확도에 왜곡된 영향을 줄 수 있으며, 이는 결과 해석에서 유의해야 할 부분이다. 따라서 정확도는 모델의 전반적인 분류 경향을 이해하는 데 유용하지만, 정밀도(Precision), 재현율(Recall), F1-score와 같은 지표들과 함께 해석되어야만 더 신뢰도 높은 평가가 가능하다.

3. 정밀도

정밀도(Precision)는 모델이 양성(positive)으로 예측한 사례 중 실제로 양성인 경우의 비율을 나타내는 성능 지표이다. 즉, 양성으로 예측된 결과가 실제로 얼마나 신뢰할 수 있는지를 평가한다. 정밀도는 수식 (5)와 같다.

(5) Precision=TPTP+FP

TP는 실제로 양성인 샘플을 양성으로 정확히 예측한 수, FP는 음성이지만 양성으로 잘못 예측한 수를 의미한다. 정밀도가 높다는 것은 양성 예측에서 오탐이 적다는 것을 의미하며, 의료 진단, 이상 탐지, 스팸 필터링 등 오탐 비용이 큰 영역에서 특히 중요하다.

본 연구에서는 당뇨병 예측이라는 민감한 분야에서 정밀도의 중요성을 고려하였으며, 다양한 분류기의 정밀도를 비교하였다. 실험 결과는 Figure 4와 같이 AdaBoostClassifier가 가장 높은 정밀도를 기록하였다. 이는 모델이 양성으로 예측하면 실제로 위험군에 해당할 가능성이 높다는 것을 나타내며, 불필요한 경고나 과잉 진단을 줄일 수 있는 임상적 유용성을 뒷받침한다.

Figure 4.

Precision Comparison of Classification Models

정밀도는 모델 성능의 일부만을 반영한다. 예를 들어, 모델이 대부분을 양성으로 예측하도록 설계되면 정밀도는 인위적으로 높아질 수 있으며, 이 경우 실제로는 유용하지 않은 모델이 될 수 있다. 또한, 본 연구에 포함된 아동 그룹과 같은 하위 집단의 특성을 함께 고려하지 않으면 정밀도 해석에 왜곡이 생길 수 있다. 따라서 정밀도는 모델의 예측 정확성을 평가하는 핵심 지표지만, 재현율(Recall), F1-score와 함께 해석될 때 더욱 균형 잡힌 분석이 가능하다.

4. 재현율

재현율(Recall)은 모델이 실제로 양성인 사례 중에서 올바르게 예측한 비율을 나타내며, 질병 진단처럼 위험군을 놓치지 않는 것이 중요한 응용 분야에서 핵심적인 성능 지표이다. 재현율은 수식 (6)과 같다.

(6) Recall=TPTP+FN

높은 재현율은 모델이 실제 위험군을 잘 포착하고 있음을 나타내기 때문에 당뇨병 예측과 같은 민감한 분야에서는 임상적으로 매우 중요하다.

Figure 5는 다양한 분류 모델들의 재현율을 시각적으로 비교한 것으로, AdaBoostClassifier가 가장 높은 재현율을 기록하였다. 이는 반복 학습을 통해 누락된 양성 사례(FN)를 효과적으로 보완한 결과로 해석된다. 특히 본 데이터셋에는 아동을 포함한 다양한 생리적 특성을 가진 하위 집단이 존재하기 때문에, 이들을 정확히 식별하는 모델의 능력은 예측의 신뢰도와 직결된다.

Figure 5.

Recall Comparison of Classification Models

한편, 데이터 불균형이 존재할 때 단순 정확도만으로는 모델의 성능을 왜곡해 판단할 수 있으며, 재현율은 이를 보완할 수 있는 지표다. 그러나 재현율이 높다고 해서 항상 모델이 우수하다고 단정할 수는 없다. 예를 들어, 모든 데이터를 양성으로 예측하면 재현율은 극단적으로 높아질 수 있으나 정밀도는 크게 떨어진다. 따라서 본 연구는 정확도, 정밀도, 재현율을 함께 고려하며 다음 절에서 F1-score를 통해 모델의 종합 성능을 분석한다.

5. F1-score

F1-score는 정밀도와 재현율의 조화 평균이며 두 지표 간의 균형을 종합적으로 평가하는 데 유용한 성능 척도이다. 특히 클래스 간 불균형이 존재하는 데이터셋에서 F1-score는 단일 지표보다 더 실질적인 모델 성능을 반영할 수 있으며 수식(7)과 같이 계산한다.

(7) F1-score =2 Precision ⋅ Recall Precision + Recall

F1-score는 두 요소 중 하나라도 낮으면 전체 값이 하락하므로, 예측 신뢰도와 양성 탐지력을 동시에 고려한 평가가 가능하다. 이는 특히 당뇨병과 같이 양성 사례의 누락이 큰 영향을 미치는 응용 분야에서 중요하게 작용한다.

본 연구에서는 Figure 6과 같이 AdaBoostClassifier가 비교 모델 중 가장 높은 F1-score를 기록하였다. 이는 해당 모델이 오탐과 미탐을 모두 효과적으로 줄이며, 양성 클래스에 대한 정밀도와 재현율에서 우수한 성능을 보였음을 의미한다.

Figure 6.

F1-score of Classification Models

모델에서는 당뇨병 진단 기준에 사용되지 않았던 확장 속 성인 비전통적 건강 속성을 주요 독립 변수로 활용하였으며, 이들 변수는 당뇨병 유병률과 유의한 상관관계를 보였다. 예를 들어, Table 2와 같이 연령(0.44), BMI(0.33), 요당(0.32)은 A형 간염 항체(0.19)에 비해 강한 양의 상관관계를 나타냈으며 혼인 여부(-0.36)는 음의 상관관계를 보였다. 이러한 변수 설계는 F1-score 향상에도 기여한 것으로 해석된다. 실험에서 F1-score는 모델의 성능뿐만 아니라 변수 구성의 적절성을 간접적으로 입증하는 지표로 활용되었으며, 향후 당뇨병 예측 시스템 개발 및 확장 연구에 있어 핵심 평가 기준으로 고려될 수 있다.

Independent variables

6. 모델 성능 분석

본 연구에서는 AdaBoost 분류기를 기반으로 당뇨병 예측 모델을 설계하고, 주요 건강 지표와 당뇨병 간의 상관관계를 분석하였다. Figure 7은 본 모델의 처리 흐름을 요약한 것으로, 입력 변수로는 연령, 체질량지수(BMI), 요당, A형 간염 항체, 혼인 상태가 포함된다. 이들 변수는 기존 진단 기준에서는 주요하게 고려되지 않았던 항목들이며, 본 연구는 이러한 비전통적 지표의 조합이 당뇨병 예측 성능 향상에 기여할 수 있음을 입증하고자 하였다.

Figure 7.

Model Selection and Classification Process for Diabetes Prediction

제안된 모델은 전처리 과정을 거쳐 AdaBoostClassifier에 학습되며, 약한 학습기로는 최대 깊이 1의 결정 트리를 사용하였다. 5-겹 교차검증(5-fold cross-validation)을 통해 성능의 일반화 가능성을 높였으며, 반복적인 가중치 갱신 과정을 통해 오분류를 보정함으로써 모델의 정밀도를 향상시켰다.

Table 3은 모델의 주요 성능 지표를 요약한 것이다. 실험 결과, 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score에서 모두 78%를 기록하였다. 이와 같은 결과는 AdaBoost 기반 모델이 단일 지표의 극대화가 아닌, 정확도–정밀도–재현율의 균형 잡힌 예측 능력을 확보하고 있음을 시사한다. 특히 F1-score가 다른 지표들과 유사한 수준을 유지한 점은, 클래스 불균형 문제나 특정 집단(예: 아동)에서의 성능 저하 없이 전반적으로 안정적인 분류 성능을 발휘했음을 보여준다.

Model performance

실험 결과에서 모델의 성능이 절대적으로 높은 수치는 아니지만, 기존에 간과되던 건강 속성을 통합한 모델이, 단지 성능 수치를 넘어서 질병 예측 모델 설계에 새로운 통찰을 제공할 수 있음을 실증적으로 제시하였다.

결론

당뇨병은 전통적으로 고령층에서 주로 발병하는 질환으로 인식되어 왔으나, 최근에는 유전적 요인, 생활습관, 환경적 영향으로 인해 청소년과 중년층에서도 발병률이 증가하고 있다. 비만, 불균형한 식습관, 신체활동 부족, 스트레스 등은 주요 위험 요인으로 작용하며, 이에 대한 예방과 관리에는 다각적인 접근이 요구된다. 당뇨병의 조기 진단은 심혈관·신장 질환 등 합병증 예방뿐 아니라 의료비 절감과 삶의 질 향상에도 직결된다.

본 연구는 2022년 국민건강영양조사 데이터를 기반으로 연령, 체질량지수(BMI), 요당, A형 간염 항체, 혼인 상태의 건강·사회 변수를 통합한 당뇨병 예측 모델을 제안하였다. AdaBoostClassifier를 적용하고 5-fold 교차검증을 수행한 결과, 정확도·정밀도·재현율·F1-score에서 모두 78%를 달성하였으며, 이는 동일 데이터셋을 활용한 기존 연구(Lee et al., 2024) 대비 향상된 성능이다. 특히 F1-score의 개선은 양성 사례 탐지 능력과 예측 신뢰성 간의 균형 향상을 의미한다.

결론적으로 본 연구는 다양한 건강 속성 간 상관관계를 정량적으로 분석하고 이를 예측 모델에 반영함으로써, 당뇨병의 조기 진단과 예방 전략 수립에 기여할 수 있는 가능성을 제시하였다.

향후 연구에서는 실제 임상 환경에서의 적용 가능성을 검증하고, 다양한 인구 집단과 환경 조건에서도 일반화할 수 있는 모델 개발이 필요하다.

Notes

사사

본 연구는 2025년 과학기술정보통신부 및 정보통신기획평가원의 SW중심대학사업 지원을 받아 수행되었음(2021-0-01440).

References

Abnoosian K., Farnoosh R., Behzadi M. H.. 2023;Prediction of diabetes disease using an ensemble of machine learning multi-classifier models. BMC Bioinformatics 24(337)
Asan Medical Center. (2023). Diabetes overview. [Online] Available: https://www.amc.seoul.kr.
Centers for Disease Control and Prevention (CDC). (2023). Symptoms and causes of diabetes.
Diabetes Korea. (2024). Diabetes factsheet. Retrieved August 25.
Frasca M., Pravettoni G., Cutica I., La Torre D.. 2024;Explainable and interpretable artificial intelligence in medicine: A systematic bibliometric review. 4(1):1–21.
Han, J., Kamber, M., and Pei, J. (2011). Data mining: Concepts and techniques (3rd ed.). Morgan Kaufmann.
Health Promotion Institute. (2022). Lifestyle and risk factors for Type 2 diabetes.
Korea Diabetes Association. (2023). Annual screening guidelines.
Korea Disease Control and Prevention Agency (KDCA). (2023). 2022 Korea National Health and Nutrition Examination Survey (KNHANES Ⅸ-1).
Korea Disease Control and Prevention Agency (KDCA). (2024). Health information: Diabetes. [Online] Available: https://health.kdca.go.kr.
Korea Health Portal. (2023). Diabetes-related complications. National Health Information Portal.
Korea National Statistical Office. (2021). Annual mortality statistics by disease type. Statistics Korea.
Kwon H. S.. 2023;Prevalence and treatment status of diabetes mellitus in Korea. Journal of the Korean Medical Association 66(7):404–407.
Lee S. J., Choi J. W., Lee C. R., Kim N. J., Kim J.. 2024;Expanding diabetes analysis variables through machine learning: A study on the integration of additional factors. ACK2024 31(2):615–616.
Ministry of Health and Welfare. (2023). Chronic disease management plan.
World Health Organization (WHO). (2024). Diabetes. [Online] Available: https://www.who.int/news-room/fact-sheets/detail/diabetes.
Yize, Z. (2025). Comparative analysis of diabetes prediction models using the Pima Indian diabetes database, ITM Web of Conferences, 70.

Article information Continued

Figure 1.

Training and Evaluation Algorithm

Figure 2.

5-Fold Cross-Validation

Figure 3.

Accuracy Comparison of Classification Models

Figure 4.

Precision Comparison of Classification Models

Figure 5.

Recall Comparison of Classification Models

Figure 6.

F1-score of Classification Models

Figure 7.

Model Selection and Classification Process for Diabetes Prediction

Table 1.

Model Training and Evaluation Settings

tem Setting
Dataset size Total 7,380 samples
Train-test split ratio 80% train : 20% test (random split, seed = 42)
Cross-validation method 5-fold cross-validation
AI learning lib scikit-learn
Weak learner Decision Tree (depth = 1)
Number of estimators 50 estimators
Evaluation metrics Accuracy, Precision, Recall, F1-score
Number of classification models(17) 1. AdaBoostClassifier
2. GradientBoostingClassifier
3. RandomForestClassifier, 4. SVC
5. KNeighborsClassifier
6. DecisionTreeClassifier
7. XGBClassifier, 8. LGBMClassifier
9. GaussianNB, 10. RidgeClassifier
11. LogisticRegression
12. HistGradientBoostingClassifier
13. PassiveAggressiveClassifier
14. ExtraTreesClassifier, 15. BaggingClassifier
16. SGDClassifier, 17. CatBoostClassifier

Table 2.

Independent variables

Correlation Independent Variable
0.44 Actual age
0.33 Body Mass Index(BMI)
0.32 Urine sugar
0.19 Presence of hepatitis A antibodies
-0.36 Marital status

Table 3.

Model performance

Metrics Score
Accuracy 78 %
Precision 78 %
Recall 78 %
F1-score 78 %