Development of a cluster analysis-based heavy rainfall damage prediction functions and their performance comparison

Jin Gyeong Yoo; Donghwi Jung; Do Guen Yoo

doi:10.3741/JKWRA.2025.58.11.993

Preview

Research Article

Journal of Korea Water Resources Association. 30 November 2025. 993-1003
https://doi.org/10.3741/JKWRA.2025.58.11.993

Development of a cluster analysis-based heavy rainfall damage prediction functions and their performance comparison

군집분석 기반 호우피해예측 함수 개발 및 예측 성능 비교

Jin Gyeong Yoo^a

Donghwi Jung^b

Do Guen Yoo^c^*

유 진경^a

정 동휘^b

유 도근^c^*

^aMaster’s Course, Department of Civil Engineering, The University of Suwon, Hwaseong, Korea

^bAssociate Professor, School of Civil, Environmental and Architectural Engineering, Korea University, Seoul, Korea

^cAssociate Professor, Department of Civil and Environmental Engineering, The University of Suwon, Hwaseong, Korea

^a수원대학교 토목공학과 석사과정

^b고려대학교 공과대학 건축사회환경공학부 부교수

^c수원대학교 건설환경에너지공학부 부교수

^{*Corresponding Author}

License (open-access, https://creativecommons.org/licenses/by/4.0):

©It is identical to the Creative Commons Attribution Non-commercial License (https://creativecommons.org/licenses/by/4.0)

ABSTRACT

According to the Ministry of the Interior and Safety's Disaster Yearbook, heavy rain continues to cause damage in South Korea every year, and property damage accounts for the largest proportion of natural disasters. Therefore, this study classified local governments in Gyeonggi Province using K-means clustering analysis, considering regional characteristics such as rainfall intensity, geographic location, and damage scale. Based on this, a heavy rain damage prediction function was developed. The analysis focused on local governments in Gyeonggi-do, using data from 2013 to 2023. Predictor variables consisted of meteorological and socioeconomic factors. Decision Tree Bagging (DT-Bagging) and Long Short-Term Memory (LSTM) models, which have demonstrated excellent predictive performance in previous studies, were used as prediction models. Mean Square Error (MSE), Root Mean Square Error (RMSE), and Normalized Root Mean Squared Error (NRMSE) were used to compare the predictive performance of the two models. The prediction performance comparison results showed that the DT-Bagging function achieved a 97.2% improvement over the LSTM function. Therefore, this study is expected to contribute to the establishment of a precise flood damage prediction and disaster management system based on the characteristics of local governments.

Keywords

Heavy rainfall

Damage prediction

Clustering

Predictive performance

행정안전부 재해연보에 따르면 우리나라에서는 매년 호우로 인한 피해가 지속되며, 자연재해 중 재산피해 비중이 가장 높다. 이에 본 연구는 강우 규모, 지리적 위치, 피해 규모 등과 같은 지역적 특성을 고려하여 군집분석(K-means)을 통해 경기도 내 지자체를 분류하고, 이를 바탕으로 호우피해예측 함수를 개발하였다. 분석 대상은 경기도 내 지자체이며, 2013년부터 2023년까지의 데이터를 활용하였다. 예측 변수는 기상요소와 사회·경제적 요인으로 구성하였다. 예측 모델로는 선행연구에서 예측 성능이 우수했던 의사결정나무 기반 배깅(Decision Tree Bagging, DT-Bagging)과 장단기메모리(Long Short-Term Memory, LSTM)을 적용하였다. 두 가지 모델의 예측 성능 비교를 위해 평균제곱오차(Mean Square Error, MSE), 평균제곱근오차(Root Mean Square Error, RMSE), 정규화 평균제곱근오차(Normalized Root Mean Squared Error, NRMSE)를 사용하였다. 예측 성능 비교 결과, DT-Bagging 함수가 LSTM 함수 대비 97.2%의 향상률을 보였다. 따라서 본 연구는 지자체 특성에 기반한 정밀한 호우피해예측과 재난관리 체계 구축에 기여할 수 있을 것으로 기대된다.

키워드

호우

피해 예측

군집분석

예측 성능

MAIN

1. 서 론
2. 방법론
2.1 호우피해예측을 위한 자료 구축
2.2 군집분석 방법론
2.3 호우피해예측 함수 개발
3. 적용 및 결과
3.1 대상 지역 선정
3.2 군집분석 결과
3.3 호우피해예측 함수 성능 평가 결과
3.4 DT-Bagging과 LSTM 적용 함수 예측 성능 비교
4. 결 론

1. 서 론

최근 기후변화로 인한 국지성 집중호우의 발생 빈도와 강도가 증가함에 따라 이에 따른 피해 규모도 점차 확대되고 있다. 호우는 다수의 인명피해뿐 아니라 막대한 경제적 손실을 초래하는 대표적인 자연재해 중 하나로, 행정안전부 재해연보에 따르면 호우로 인한 경제적 피해액은 다른 자연재해에 비해 가장 높은 수준을 기록하고 있다(MOIS, 2023).

특히 2022년 발생한 서울 강남역 일대 침수 사태는 수도권에 집중된 호우로 인해 심각한 인명 및 재산피해를 일으켰으며, 관악구, 동작구, 서초구, 강남구 등 노후 단독주택 및 반지하 주택 밀집 지역, 하천변 저지대를 중심으로 피해가 집중되는 양상이 확인되었다(KRIHS, 2022).

이러한 사례는 자연재해의 피해 양상이 지역의 특성에 따라 다르게 나타나고 있음을 보여준다. 따라서 재해 예방 및 대비 차원의 선제적 재난관리를 위해 피해 예측 모델의 개발이 필요하며, 특히 지역별 특성을 반영한 정밀한 피해 예측기법이 요구된다. 이에 따라 본 연구는 자연재해로 인한 경제적 피해를 예측한 선행연구와 피해특성을 기준으로 분류·분석한 국내외 연구 동향을 고찰하고자 한다.

먼저, 자연재해로 인한 경제적 피해를 정량적으로 예측한 국외 연구를 살펴보면 다음과 같다. 일본을 대상으로 홍수 피해 예측을 위한 통계모형을 구축한 연구에서는, AMeDAS 일 강수량을 Gumbel 분포로 변환해 초과확률을 산정하고 인구밀도·경사·GDP를 변수로 활용하여 피해 발생 확률 함수(DOP)와 피해 비용 함수(DpG)를 정의하였다. 모형은 1993~ 2002년 자료로 보정하고 2003~2009년으로 검증한 결과, 평균연간피해를 합리적으로 재현하였으며, 대도시는 절대 피해가 크고 저경사 지역은 GDP 대비 피해율이 높게 나타났다(Bhattarai et al., 2016). 광저우시를 대상으로 CNN 기반 홍수 피해 예측 모형을 개발한 연구에서는, 침수심 관측자료와 강우·지형·토지이용 등 12개 변수를 활용하여 50 m 해상도의 매트릭스 데이터를 구성하고 다층 CNN 구조와 데이터 증강을 적용하였다. 학습은 심천 자료로 수행한 뒤 전이학습을 적용하였으며, 다양한 재현기간 시나리오에 따른 침수심을 깊이-피해 함수와 연계해 경제적 손실을 산정하였다. 분석 결과, 100년 빈도 시나리오에서 약 63.6억 달러의 피해가 추정되었고 산업과 주거 부문이 전체 피해의 대부분을 차지하였다(Wang et al., 2024).

국내에서도 자연재해로 인한 경제적 손실을 예측하기 위한 정량적 연구가 수행되었다. 경기도를 대상으로 머신러닝 기반 공공시설 호우피해 예측 함수를 개발한 연구에서는, 종속변수로 재해연보(2006~2015년)의 공공시설 피해액을 사용하였고 설명변수로 강우량·지속시간별 최대강우량·기온·풍속 등 기상요소와 GRDP (지역내총생산)·도시화율·취약인구 비율·복구비 투입액 등 사회·경제적 요소를 결합하였다. 분석에는 의사결정나무, 배깅, 랜덤포레스트가 적용되었고, 변수 다중공선성 문제는 주성분분석(PCA)을 통해 해결하였다. 예측 성능 평가 결과, NRMSE는 22.93~24.16% 수준으로 나타났으며, 세 기법 중 배깅 모형이 가장 우수한 성능을 보였다(Choi et al., 2017). 1999~2019년 재해연보 자료를 기반으로 인공신경망(ANN)을 활용해 호우재해 피해특성을 예측한 연구에서는, 입력변수로 총 강우량과 일 최대 강우량을, 종속변수로 총 피해금액 및 36개 세부 피해항목을 설정하였다. ANN 구조는 2개 은닉층(각 5개 노드)으로 구성되었으며, 학습데이터(1999~2018년, 6,414건)와 검증데이터(2019년, 488건)를 분리하여 분석하였다. 평가 결과, 총 피해금액에 대한 예측 정확도가 가장 높았으며(R = 0.993, RMSE = 0.0006), 강우량 변수만을 사용한 경우에는 정확도가 낮게 나타났다(Song et al., 2024).

다음으로, 피해 발생 특성을 군집화하거나 분류 기법을 통해 분석한 연구도 활발히 이루어졌다. 그리스 아테네 대도시권을 대상으로 보험 청구 데이터를 활용해 24시간 누적 강우량(R24)과 홍수 피해 발생 간의 관계를 분석한 연구에서는, 피해 유발 가능성이 큰 강우 임계값을 식별하였다. 분석은 우편번호 단위의 공간 해상도에서 수행되었으며, 강우량이 일정 기준을 넘을 때 보험 피해가 발생하는지를 이진 로지스틱 회귀모형과 ROC 분석을 통해 평가하였다. 특히, 시 단위로 피해 발생 임계값을 구분하고 이를 기준으로 지역별 홍수 피해 위험도를 3단계(높음, 중간, 낮음)로 분류하였다(Papagiannaki et al., 2022). 중국 하이커우시를 대상으로 환경 요인 기반 군집분석과 베이지안 최적화 GBDT를 결합한 홍수 예측 모형을 제안한 연구에서는, PCSWMM 1D-2D 모형을 통해 다양한 강우·조위 시나리오에 따른 침수심 데이터를 생성하고, 고도·경사·배수관 밀도·하천 거리·곡률 등 재해유발환경 요인을 활용해 K-means로 3개 클러스터를 도출하였다. 이후 각 군집에 대해 GBDT 기반 예측모형을 구축하고 하이퍼파라미터는 베이지안 최적화를 통해 탐색하였다. 분석 결과, 세 군집의 NSE가 0.96~0.99로 나타났으며 단일 GBDT 대비 정확도가 크게 향상되었다. 특히 해안에 위치한 2번 군집에서는 조위 영향 지표를 추가하여 성능 개선 폭이 가장 컸다(Wang et al., 2023).

아울러, 국내에서는 지역별 피해특성을 반영한 분류 및 분석 연구도 수행되었으며, 주요 사례로 전국 229개 행정구역을 대상으로 계층적 군집분석을 시행한 연구가 있다. 해당 연구에서는 유사한 피해특성을 가진 지역을 3개 군집으로 분류하고 각 군집에 특화된 호우피해액 예측모형을 개발하였다. 피해액과 최대강우강도를 주요 변수로 사용하였으며, 군집별로 랜덤포레스트, LSTM, 심층신경망 등 다양한 예측기법을 적용한 결과, 통합모형에 비해 군집 기반 예측모형이 더 높은 정확도를 보였다(Lee, 2024).

기존 연구는 기존 연구는 지역적 특성을 충분히 반영하지 못해 피해 유형을 정밀하게 분류하는 데 한계가 있었다. 이에 본 연구는 호우로 인한 경제적 피해를 예측함과 동시에 지역별 특성을 고려한 군집분석을 통해 피해를 유형화함으로써, 보다 정교한 예측과 지역 맞춤형 재해 대응 기반을 제시하고자 한다.

2. 방법론

2.1 호우피해예측을 위한 자료 구축

호우피해예측을 위한 분석 기간은 2013년부터 2023년까지의 11개년으로 설정하였다. 종속변수는 호우피해액으로 설정하였으며, 독립변수는 선행연구에서 활용된 변수 중 데이터의 확보 용이성과 신뢰도를 고려하여 다음과 같이 선정하였다(Choi et al., 2017).

① 기상요소: 재해기간의 총 강우량, 평균 기온, 평균 풍속

② 사회·경제적 요인: 지역 면적, GRDP, 도시화율, 피해복구비

호우피해액 및 피해복구비는 행정안전부의 재해연보를 통해 수집하였다. 재해연보는 호우, 태풍, 대설, 풍랑, 강풍, 지진 등 6개 재난유형별로 구분된 연간 피해 통계 보고서로, 1988년부터 매년 발간되고 있다. 본 연구에서는 재해연보에 기재된 재해기간과 발생 지역을 기준으로, 해당 기간의 공공시설(13개 항목) 및 사유시설(10개 항목) 피해금액을 합산하여 연도별·지역별 호우피해액과 피해복구비를 추출하였다(Choi et al., 2017).

기상요소는 기상청의 방재기상관측망(AWS) 및 종관기상관측망(ASOS) 자료를 활용하여 재해기간 중의 일별 관측자료를 수집하였다. 총 강우량은 해당 재해기간 동안의 일일 강수량의 총합으로 산정하였고, 평균 기온 및 평균 풍속은 일일 평균값의 산술평균으로 계산하였다. 사회·경제적 요인은 통계청 국가통계포털(KOSIS)에서 연도별·지역별로 수집하였다.

데이터 전처리 과정에서 일부 항목에서 결측값이 확인되었다. 기상요소 또는 피해복구비에 결측이 존재하는 경우, 해당 데이터를 분석 대상에서 제외하였으며, 호우피해액과 피해복구비가 모두 0원으로 기록된 경우 또한 실질적 피해가 발생하지 않았다고 판단하여 제외하였다. 이와 같은 기준에 따라 총 29건의 데이터가 제거되었으며, 최종적으로 정제된 데이터를 기반으로 군집분석 및 예측 함수 개발을 수행하였다.

2.2 군집분석 방법론

지역적 특성을 고려한 호우피해예측을 위하여 군집분석을 시행하였다. 군집분석 기법으로는 중심기반 군집화 방법 중 비 계층적 알고리즘인 K-means를 활용하였다. K-means는 사전에 정의된 범주 또는 레이블 없이, 관측값 간 거리인 유사도를 기반으로 군집을 형성하는 비지도 학습방식의 알고리즘이다. 이때 유클리디안 거리(Uclidian Distance)를 사용하여 최소거리의 데이터를 모아서 사용한다. 분석자는 먼저 군집의 개수 K를 임의로 지정하며, 초기 중심점을 기준으로 각 관측값을 가장 가까운 중심점과의 거리를 기준으로 K개의 군집으로 분류한다. 이후 각 군집의 중심점을 재계산하고, 군집의 구성이 변하지 않을 때까지 해당 과정을 반복 수행한다(Moon, 2023).

군집의 최적 개수(K)를 결정하기 위해 Elbow Method를 활용하였다. Eq. (1)과 같이 군집 내 제곱오차합(Sum of Squared Errors, SSE)을 계산하였다. 여기서 $y_{i}$ 는 관측값, ${\hat{y}}_{i}$ 는 군집 중심점, $n$ 은 표본 수를 의미한다. SSE는 군집 응집력을 나타내며 값이 작을수록 동일 군집 내 데이터 간 거리가 짧아 군집이 잘 형성되었음을 의미한다. 따라서 Elbow Method를 적용하여 SSE 감소율이 급격히 완화되는 지점을 최적 군집 수로 결정하였다.

(1)

S S E = \sum_{i = 1}^{n} {(y_{i} - {\hat{y}}_{i})}^{2}

본 연구에서는 지역적 특성을 고려한 호우피해예측 함수 개발을 위하여, 세 가지 기준에 따라 군집분석을 수행하였다.

첫 번째 군집분석은 강우 규모를 기준으로 수행하였다. 강우 규모는 재해 발생 시점과 지역에 따라 큰 변동성을 보이며, 동일 지역 내에서도 발생한 사상에 따라 총 강우량과 강우 일수의 차이가 현저하게 나타난다. 이러한 사례는 같은 행정구역에서도 호우 사상의 규모에 따라 피해의 양상이 달라질 수 있음을 시사하며, 강우 규모에 따라 분류된 군집은 예측 함수의 정밀도를 높이는 데 기여할 수 있다. 따라서 본 군집분석에서는 총 강우량과 강우 일수를 변수로 설정하여 K-means 군집분석을 시행하였다.

두 번째 군집분석 기준은 지리적 위치이다. 데이터 검토 과정에서 일부 관측값에서 호우피해액 또는 피해복구비가 0원으로 집계된 사례가 확인되었다. 이는 피해가 실질적으로 없었다기보다는, 행정구역 단위의 통계 집계 방식이 실제 피해범위를 충분히 반영하지 못했을 가능성이 있는 것으로 판단된다. 실제 호우로 인한 영향은 행정구역의 경계를 초월하여 발생할 수 있으며, 지리적으로 인접한 지역은 동일한 재해 영향권에 포함되는 경우가 많다. 이에 따라 각 지역의 위도 및 경도 좌표를 변수로 설정하여 공간적 유사성을 기준으로 군집화를 수행하였다. 해당 위치 정보는 Google Maps Platform의 Geocoding API를 활용하여 확보하였다. Geocoding API는 시단위의 지리 정보를 범위 기반으로 제공하며, 해당 범위 내에서 중심점 또는 대표성을 갖는 좌표를 추정하여 반환한다.

세 번째 기준은 피해 규모를 중심으로 한 군집분석이다. 분석 기간 동안 각 지역의 호우피해 발생 빈도를 검토한 결과, 가장 적은 지역이 5건이고 가장 많은 지역이 28건으로 큰 차이가 존재하였다. 또한, 피해복구비 역시 지역 간 큰 편차를 보이며, 일부 지역은 높은 빈도의 피해에도 불구하고 복구비 규모가 낮거나, 반대로 적은 빈도의 대형 피해로 인해 복구비가 급증한 사례도 존재하였다. 이에 따라 본 분석에서는 피해 발생횟수와 피해복구비를 변수로 설정하여 군집화를 수행하였다.

2.3 호우피해예측 함수 개발

본 연구에서는 앞서 구축한 자료를 기반으로 호우피해예측 함수를 개발하였다. 데이터 셋은 학습용, 검증용, 시험용 데이터로 각각 70%, 20%, 10%의 비율로 분할하여 활용하였다. 함수 개발을 위해 선행연구에서 호우피해예측 성능이 우수하다고 평가된 의사결정나무 기반 배깅(Decision Tree Bagging, DT-Bagging) 기법과 장단기 메모리(Long Short- Term Memory, LSTM) 신경망을 적용하였다. 예측 함수의 성능 평가는 평균제곱오차(Mean Square Error, MSE), 평균제곱근오차(Root Mean Square Error, RMSE), 그리고 정규화 평균제곱근오차(Normalized RMSE, NRMSE)를 기준으로 수행하였다. 여기서 $y_{i}$ 는 실제 호우피해액, ${\hat{y}}_{i}$ 는 예측된 호우피해액을 의미한다. MSE는 예측오차 제곱의 평균으로 전체 오차의 크기를 평가하며, RMSE는 이를 제곱근하여 실제 단위와 동일하게 환산함으로써 직관적인 해석이 가능하다. NRMSE는 RMSE를 ( $y_{\max} - y_{\min}$ )으로 나누어 무차원화한 지표로, 데이터 범위가 다른 경우에도 상대적인 비교가 가능하다는 장점이 있다. 세 지표는 모두 예측값과 실제값 간의 차이를 정량적으로 평가하는 방식이며, 함수 간 예측 정확도를 비교·검증하는 데 활용하였다.

(2)

M S E = \frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - {\hat{y}}_{i})}^{2}

(3)

R M S E = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - {\hat{y}}_{i})}^{2}}

(4)

N R M S E = \frac{\sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - {\hat{y}}_{i})}^{2}}}{y_{\max} - y_{\min}}

2.3.1 의사결정나무 기반 배깅(Decision Tree Bagging, DT- Bagging)

배깅(Bootstrap Aggregating)은 훈련 데이터로부터 복원추출(bootstrap sampling) 방식으로 다수의 학습용 표본을 생성하고, 이를 기반으로 여러 개의 학습기를 독립적으로 학습시킨 뒤 예측값을 평균(회귀) 또는 다수결(분류) 방식으로 집계하는 앙상블 기법이다. 본 연구에서는 기본 학습기로 의사결정나무를 채택하였으며, Fig. 1에 해당 기법의 구조를 나타내었다. 트리의 개수는 충분한 안정성이 확보될 때까지 늘려 설정하였고, 각 트리는 동일한 크기의 복원표본을 기반으로 학습되었다. 이러한 구조는 개별 결정트리의 높은 분산을 효과적으로 감소시키면서, 데이터가 제한적이거나 과적합 위험이 존재하는 상황에서도 안정적인 예측 성능을 확보하는 데 유리하다(Kabari and Onwuka, 2019;Amin et al., 2023).

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F1.jpg

Fig. 1.

Structure of the Bagging algorithm

2.3.2 장단기메모리(Long Short-Term Memory, LSTM)

LSTM은 Hochreiter and Schmidhuber (1997)가 제안한 순환 신경망(RNN)의 확장 구조로, 시계열 데이터 내의 장기 의존성을 효과적으로 학습할 수 있도록 설계되었다. 기존의 RNN은 시퀀스가 길어질수록 기울기 소실(vanishing gradient) 문제로 인해 장기 정보를 유지하기 어려운 한계를 보인다. Fig. 2를 보면, LSTM은 이를 해결하기 위해 정보의 흐름을 셀 상태(cell state)를 통해 보존하며, 입력 게이트, 망각 게이트, 출력 게이 트 등의 구조를 통해 필요한 정보만을 선택적으로 기억하거나 삭제한다. 이러한 게이트들은 시그모이드(sigmoid) 및 쌍곡탄젠트(tanh) 함수를 기반으로 구성되어 있으며, 학습 과정에서 자동으로 최적화된다. LSTM은 재해 데이터처럼 시계열적 특징이 강하고 시점 간의 연관성이 중요한 데이터에 적합한 모델로 평가받고 있다(Hochreiter and Schmidhuber, 1997).

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F2.jpg

Fig. 2.

Structure of the long short-term memory

3. 적용 및 결과

3.1 대상 지역 선정

본 연구의 분석 대상 지역은 경기도 내 31개 지자체로 선정하였다. 행정안전부 재해연보에 기반한 분석 기간(2013~2023년) 동안, 경기도 전역에서 총 95건의 호우피해 사상이 발생한 것으로 확인되었다. Fig. 3은 연도별, 지역별 호우피해액 총합을 나타낸 그림이다. 연도별 호우피해액 총합은 2022년이 약 1,400억 원으로 가장 많은 값을 기록하였다. 이는 동년 8월 수도권을 중심으로 발생한 집중호우에 기인한 것으로 분석된다. 특히, 8월 8일부터 8월 11일까지의 집중호우 기간 동안, 양평군의 누적강수량은 622.2 mm로 8월 평년강수량(282.6 mm)의 2배를 초과하였다. 이와 같은 이상 강우는 막대한 재산 피해로 이어졌으며, 그 결과 2022년의 총 호우 피해액이 분석 기간 중 최대치를 기록하였다. 지역별로는 양평군이 약 60억 원의 피해액을 기록하며 가장 높은 피해 규모를 보였는데, 이는 동일 기간 동안 해당 지역에서 관측된 극단적인 누적 강수량과 밀접한 관련이 있는 것으로 판단된다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F3.jpg

Fig. 3.

Total damage cost by year and city

3.2 군집분석 결과

강우 규모를 기준으로 설정한 군집분석에서 Elbow Method를 통해 도출된 최적 군집 수 K는 2로 확인되었다. Fig. 4의 군집분석 결과를 보면, 군집 0은 총 강우량과 강우 일수가 모두 상대적으로 높은 특성을 보였으며, 군집 1은 두 변수 모두 낮은 값을 갖는 경향을 나타내었다. 이는 동일 지역 내에서도 호우 사상의 강도와 지속 시간에 따라 피해특성이 상이할 수 있음을 의미한다. 그러나 군집 간의 공간적 분포를 확인한 결과, 뚜렷한 지리적 구분이나 공간적 패턴은 확인되지 않았다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F4.jpg

Fig. 4.

Cluster result based on rainfall scale

지리적 위치를 기준으로 설정한 군집분석에서 Elbow Method를 통해 최적 군집 수 K를 3으로 산정하였다. Fig. 5를 보면, 지리적으로 인접한 지역들 간의 공간적 응집도가 높은 형태로 군집화되었다. 이는 실제 호우피해 발생 시 피해가 단일 지역에만 영향을 미치기보다는, 인접 지역들에 동시에 영향을 미치는 특성을 반영한 결과로 볼 수 있다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F5.jpg

Fig. 5.

Cluster result based on geographic location

피해 규모를 기준으로 설정한 군집분석에서 Elbow Method를 통해 최적 K값을 3으로 설정하였다. Fig. 6의 군집분석 결과, 피해 발생횟수가 군집 형성에 가장 큰 영향을 미치는 변수로 확인되었다. 군집 2는 피해 발생횟수가 가장 높은 군집으로, 군집 1은 피해 발생횟수가 가장 낮은 군집으로 분류되었다. 이는 지역별 피해빈도 차이가 피해 규모를 정의하는 주요 요인으로 작용함을 보여준다. 해당 군집 결과를 공간적으로 분석한 결과, 양주시를 제외한 대부분의 지자체가 명확하게 군집별로 구분되는 경향을 보였다. 특히 피해 발생 횟수가 가장 높은 군집 2에는 27건 이상의 피해가 발생한 고양시, 광명시, 수원시, 평택시 등이 포함되어, 피해 빈도가 높은 지역들이 특정 군집에 집중적으로 분포하는 공간적 특성이 일부 확인되었다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F6.jpg

Fig. 6.

Cluster result based on damage scale

3.3 호우피해예측 함수 성능 평가 결과

3.3.1 DT-Bagging 적용 호우피해예측 함수

강우 규모 기준으로 분류된 군집에 대해 DT-Bagging 기반 예측 함수를 적용한 결과를 Table 1에 나타내었다. 모든 군집에서 성능 지표(MSE, RMSE, NRMSE)가 0에 수렴하는 경향을 보여, 높은 예측 정 확도를 나타냈다. 지리적 위치 기준 및 피해 규모 기준 군집에서도 대부분의 군집에서 성능 지표가 0에 근접한 값을 나타내어 예측력이 우수한 것으로 평가되었으나, 일부 군집에서는 예외가 나타났다. Tables 2 and 3에서 각 군집 0의 Test 데이터셋의 MSE가 약 6.2, 2.4로 상대적으로 낮은 예측 성능을 보였다. 이러한 결과는 전체 데이터 467건을 군집별로 나눈 후, 각 군집 내에서 다시 학습·검증·시험 데이터로 분할하면서 개별 데이터셋의 크기가 과도하게 축소되었기 때문으로 해석된다.

Table 1.

Prediction performance evaluation of DT-Bagging based on rainfall scale

Cluster 0	MSE (Million KRW)	RMSE (Thousand KRW)	NRMSE
Train	0.1012	0.3181	0.0279
Validation	1.0209	1.0104	0.1395
Test	0.6728	0.8202	0.0986

Table 2.

Prediction performance evaluation of DT-Bagging based on geographic location

Cluster 0	MSE (Million KRW)	RMSE (Thousand KRW)	NRMSE
Train	0.4435	0.6659	0.0635
Validation	0.6675	0.8170	0.0950
Test	6.2323	2.4965	0.3620

Table 3.

Prediction performance evaluation of DT-Bagging based on damage scale

Cluster 0	MSE (Million KRW)	RMSE (Thousand KRW)	NRMSE
Train	0.1914	0.4375	0.0387
Validation	1.7594	1.3264	0.1523
Test	2.4463	1.5641	0.1903

DT-Bagging 적용 함수의 실제값과 예측값 간의 관계를 Figs. 7, 8 and 9의 산점도를 통해 분석하였다. 일부 군집을 제외하고 전반적으로 우수한 예측 성능을 나타낸 바와 같이, 산점도에서도 대부분의 점들이 y=x 기준선 부근에 밀집하여 분포하였다. 이를 통해 실제값과 예측값의 차이가 극히 미미함을 시각적으로 확인할 수 있다. 이러한 결과는 DT-Bagging 적용 예측 함수가 과도한 데이터 분할로 인해 예측 성능이 저하되는 부분도 존재하지만, 전반적인 구간에 걸쳐 안정적이고 일관된 예측 성능을 발휘함을 시사한다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F7.jpg

Fig. 7.

Scatter plot of DT-Bagging based on rainfall scale (showing strong predictive performance against actual values)

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F8.jpg

Fig. 8.

Scatter plot of DT-Bagging based on geographic location (showing strong predictive performance against actual values)

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F9.jpg

Fig. 9.

Scatter plot of DT-Bagging based on damage scale (showing strong predictive performance against actual values)

3.3.2 LSTM 적용 호우피해예측 함수

LSTM을 활용한 예측 함수의 경우, Tables 4, 5 and 6을 보면, 세 가지 군집 기준 에서 성능 지표가 2~4 수준으로 수렴하여 전반적으로 예측 정 확도가 낮은 경향을 보였다. 이러한 결과는 데이터의 과도한 분할로 인한 부족의 문제와 더불어 LSTM의 구조적 특성과 관련이 있다. LSTM은 시계열 정보의 장기 의존성을 학습하는 데 최적화된 모델이나, 본 연구에서 사용된 데이터는 재해기간 단위의 통계 데이터를 기반으로 하며, 일일 시계열 구조가 약한 특성을 가진다. 즉, 입력 데이터의 시계열성이 제한적이기 때문에, 시계열 기반 알고리즘인 LSTM이 효과적으로 작동하지 못했을 가능성이 높다.

Table 4.

Prediction performance evaluation of LSTM based on rainfall scale

Cluster 0	MSE (Million KRW)	RMSE (Thousand KRW)	NRMSE
Train	3.5957	1.8962	0.1662
Validation	2.5294	1.5904	0.2196
Test	1.8910	1.3751	0.1653

Table 5.

Prediction performance evaluation of LSTM based on geographic location

Cluster 0	MSE (Million KRW)	RMSE (Thousand KRW)	NRMSE
Train	4.2470	2.0608	0.1966
Validation	4.2260	2.0557	0.2673
Test	3.3021	1.8172	0.2081

Table 6.

Prediction performance evaluation of LSTM Based on damage scale

Cluster 0	MSE (Million KRW)	RMSE (Thousand KRW)	NRMSE
Train	3.2701	1.8084	0.1598
Validation	3.2850	1.8125	0.2081
Test	3.0933	1.7588	0.2140

LSTM 적용 함수의 예측 결과를 Figs. 10, 11 and 12의 산점도를 통해 확인한 결 과, 실제값과 예측값 간의 오차가 비교적 크게 나타났으며, 일부 데이터는 반복하여 유사한 값을 예측하는 경향이 확인되었다. 이러한 결과는 LSTM이 일정 수준의 변별력 있는 예측을 수행하였지만, 본 연구의 데이터 부족 문제와 데이터 특성상 시계열성이 제한적이기 때문에 낮은 예측 성능을 보였음을 시사한다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F10.jpg

Fig. 10.

Scatter plot of LSTM based on rainfall scale (showing reduced predictive performance)

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F11.jpg

Fig. 11.

Scatter plot of LSTM based on geographic location (showing reduced predictive performance)

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F12.jpg

Fig. 12.

Scatter plot of LSTM Based on damage scale (showing reduced predictive performance)

3.4 DT-Bagging과 LSTM 적용 함수 예측 성능 비교

DT-Bagging과 LSTM 기반 호우피해예측 함수의 성능을 비교·평가하기 위하여, LSTM 기반 예측 결과를 기준으로 한 DT-Bagging 함수의 성능 향상률을 산정하였다. 또한, 피해발생횟수가 가장 많았던 수원시를 기준으로 연도별 호우피해액 실제값과 예측값(DT-Bagging, LSTM)을 비교하였다. 향상 률을 산정한 결과, Table 7을 보면 DT-Bagging 적용 함수가 LSTM 적용 함수 에 비해 최대 약 97.2%의 향상률을 기록하는 등 의미 있는 성 능 차이를 확인할 수 있었다.

Table 7.

Prediction performance improvement by rainfall scale

Cluster 0	MSE	RMSE	NRMSE
Train	97.1855%	83.2243%	83.2130%
Validation	59.6386%	36.4688%	36.4754%
Test	64.4209%	40.3534%	40.3509%

연도별 실제 피해액과 예측값 간의 차이를 비교한 결과, Fig. 13을 보면 DT-Bagging 함수는 대부분의 연도에서 실제값과의 오차 비율이 낮게 나타났으며, LSTM 함수에 비해 상대적으로 우수한 예측 정확도를 보였다. 특히 2023년에는 LSTM 함수가 실제값의 약 4배에 해당하는 예측값을 산출한 반면, DT-Bagging 함수는 약 27%의 오차만을 기록하여 실제 피해액에 훨씬 근접한 값을 예측하였다. 이러한 결과는 DT-Bagging 기반 예측 함수가 실제 피해 규모를 보다 정밀하게 추정할 수 있음을 실증적으로 보여준다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F13.jpg

Fig. 13.

Annual damage cost comparison: Actual vs DT-Bagging vs LSTM

추가적으로, 호우피해예측 성능 저하의 주요 원인인 데이 터 분할에 따른 학습 표본 부족임을 검증하기 위해 데이터 개 수별 성능지표 결과를 Fig. 14에 나타내었다. 전체 데이터 개수 467개를 기준으로 100개 단위(467→367→267→167→67)로 학습 표본 크기를 단계적으로 축소하였으며, 무작위 추출을 수행하고 동일 절차를 20회 반복하여 평균값으로 비교·분석하였다. 그 결과, 데이터 개수가 가장 적은 67개에서 가장 낮은 예측 성능을 기록하여 데이터 부족이 예측 성능을 유의하게 저하시킴을 확인하였다. 그러나 데이터 개수가 267, 167개인 구간에서 예측 성능이 일시적으로 개선되는 양상이 관찰되었는데, 이는 무작위 추출에 따른 표본 구성 변동에서 기인한 현상으로 해석된다. 따라서 데이터 개수가 감소할수록 예측 성능이 전반적으로 저하되는 경향이 명확하며, 데이터 크기가 모델 성능에 미치는 영향이 통계적으로 실질적임을 시사한다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-11/N0200581103/images/kwra_58_11_03_F14.jpg

Fig. 14.

Comparison of performance metrics by dataset size (means over 20 runs)

4. 결 론

본 연구는 2013년부터 2023년까지의 경기도 내 31개 지자체를 대상으로, 기상 및 사회·경제적 요인을 고려하여 호우피해를 예측할 수 있는 함수를 개발하고자 하였다. 이를 위해 총 강우량, 평균 기온, 평균 풍속, 지역 면적, GRDP, 도시화율, 피해복구비 등을 변수로 설정하여 자료를 구축하였으며, 강우 규모, 지리적 위치, 피해 규모의 세 가지 기준에 따라 군집분석을 수행하였다. 이후 각 군집별로 DT-Bagging과 LSTM을 적용하여 호우피해예측 함수를 개발하고, 예측 성능을 비교·분석하였다.

연구 결과, DT-Bagging 기반 예측 함수가 대부분의 군집에서 MSE가 0에 수렴하는 등 합리적인 예측 성능을 나타냈으며, LSTM 기반 예측 함수 대비 최대 약 97.3%의 성능 향상을 보였다. 이는 LSTM이 데이터 부족으로 인한 한계와 시계열적 연속성이 부족한 데이터 구조와 적합하지 않아, 예측 성능이 제한된 것으로 판단된다.

따라서 향후 연구에서는 현재 연구에서 확인된 두 가지 한계점을 보완할 필요가 있다. 적대적 생성 신경망(Generative Adversarial Network, GAN)과 같은 데이터 증강 기법을 적용하여 분석 기간과 대상 지역을 확충하고, 충분하고 정밀한 학습 데이터셋을 확보할 필요가 있다. 이를 통해 모델 학습의 안정성과 일반화 성능을 향상시켜 보다 신뢰성 있는 예측 체계를 구축하고자 한다. 추가적으로, 호우피해예측 함수의 고도화를 위해 최적 자원 분배 모델을 개발하고자 한다. 신속한 피해 회복을 위해서는 인력 지원, 구조적 대책, 비구조적 대책 등 다양한 자원을 효율적으로 배분하는 과정이 필요하다. 이를 위해 유전알고리즘(Genetic Algorithm)을 적용하여 예측된 호우피해액에서 피해 감소 효과를 반영한 기대 잔여 피해액을 최소화하는 최적 자원 분배 모형을 제안할 계획이다. 경기도의 실제 예산 집행 현황을 참고하여 지역별 최적 자원 배분안을 도출함으로써, 본 연구 결과가 학문적 기여를 넘어 실무적으로도 활용 가능한 정책적 근거 자료로 확장될 수 있음을 제시하고자 한다.

본 연구는 실제 재해 발생 데이터를 활용하여 현실 기반의 호우피해예측 함수를 제시하였다는 점에서 실무적 활용 가능성이 크다. 또한, 군집분석을 통해 지역적 특성을 반영한 예측이 가능함을 보여줌으로써, 지자체별 맞춤형 재해 대응 전략 수립의 기초자료로 활용될 수 있다. 아울러 모델 간 성능 비교를 통해 데이터 구조에 따른 적절한 모델 선택의 중요성을 실증적으로 입증하였다. 향후 연구에서는 현재 연구의 한계로 지적된 데이터 부족과 시계열적 제약을 극복하기 위해 GAN 기반 데이터 증강 기법을 적용하여, 보다 안정적이고 일반화 가능한 예측모형을 제시하고자 한다. 더 나아가 최적 자원 분배 모델을 개발하여 예측 결과를 정책·실무적으로 연결함으로써, 본 연구의 학문적·실용적 기여를 한층 강화할 수 있을 것으로 기대한다.

Acknowledgements

본 결과물은 환경부의 재원으로 한국환경산업기술원의 도시홍수시설의 계획, 운영, 유지관리 최적화 기술개발사업의 지원을 받아 연구되었습니다(RS-2024-00398012).

Conflicts of Interest

The authors declare no conflict of interest.

References

Amin, M.N., Iftikhar, B., Khan, K., Javed, M.F., AbuArab, A.M., and Rehman, M.F. (2023). “Prediction model for rice husk ash concrete using AI approach: Boosting and bagging algorithms.” Structures, Vol. 50, pp. 745-757.

10.1016/j.istruc.2023.02.080

Bhattarai, R., Yoshimura, K., Seto, S., Nakamura, S., and Oki, T. (2016). “Statistical model for economic damage from pluvial floods in Japan using rainfall data and socioeconomic parameters.” Natural Hazards and Earth System Sciences, Vol. 16, pp. 1063-1077.

10.5194/nhess-16-1063-2016

Choi, C.H., Park, K.H., Park, H.K., Lee, M.J., Kim, J.S., and Kim, H.S. (2017). “Development of heavy rain damage prediction function for public facility using machine learning.” Journal of the Korean Society of Hazard Mitigation, Vol. 17, No. 6, pp. 443-450.

10.9798/KOSHAM.2017.17.6.443

Hochreiter, S., and Schmidhuber, J. (1997). “Long short-term memory.” Neural Computation, Vol. 9, No. 8, pp. 1735-1780.

10.1162/neco.1997.9.8.1735

Kabari, L.G., and Onwuka, U.C. (2019). “Comparison of Bagging and Voting ensemble machine learning algorithm as a classifier.” International Journal of Advanced Research in Computer Science and Software Engineering, Vol. 9, No. 3, pp. 19-23.

Korea Research Institute for Human Settlements (KRIHS) (2022). Countermeasures for urban flood prevention in the era of climate crisis: Lessons from the 2022 metropolitan heavy rainfall in Korea, p. 3.

Lee, J.H. (2024). Machine learning model development for predicting heavy rain damage of grouped regions by regional characteristics. Master Thesis, Inha University.

Ministry of the Interior and Safety (MOIS) (2023). Disaster yearbook 2023. p. 12.

Moon, G.H. (2023). Decision of water quality related priority control district metered area for water distribution networks using cluster analysis. Master Thesis, The University of Suwon, p. 31.

Papagiannaki, K., Kotroni, V., Lagouvardos, K., Bezes, A., Vafeiadis, V., Messini, I., Kroustallis, E., and Totos, I. (2022). “Identification of rainfall thresholds likely to trigger flood damages across a Mediterranean region, based on insurance data and rainfall observations.” Water, Vol. 14, pp. 1-16.

10.3390/w14060994

Song, Y., Lee, H.J., Joo, J., and Park, M. (2024). “Predicting damage characteristics of heavy rain disasters using artificial neural network.” Journal of the Korean Society of Hazard Mitigation, Vol. 24, No. 1, pp. 83-89.

10.9798/KOSHAM.2024.24.1.83

Wang, H., Xu, S., Xu, H., Wu, Z., Wang, T., and Ma, C. (2023). “Rapid prediction of urban flood based on disaster-breeding environment clustering and Bayesian optimized deep learning model in the coastal city.” Sustainable Cities and Society, Vol. 99, pp. 1-16.

10.1016/j.scs.2023.104898

Wang, M., Fan, H., Yuan, H., Zhang, D., Su, J., Zhou, S., Zhang, Q., and Li, J. (2024). “Urban flooding damage prediction in matrix scenarios of extreme rainfall using a convolutional neural network.” Journal of Hydrology, Vol. 644, pp. 1-13.

10.1016/j.jhydrol.2024.132069

Journal of Korea Water Resources Association ISSN:2799-8746(Print) 2799-8754(Online) 한국수자원학회 논문집

Preview

Development of a cluster analysis-based heavy rainfall damage prediction functions and their performance comparison

ABSTRACT

MAIN

(1)

(2)

(3)

(4)

Fig. 1.

Structure of the Bagging algorithm

Fig. 2.

Structure of the long short-term memory

Fig. 3.

Total damage cost by year and city

Fig. 4.

Cluster result based on rainfall scale

Fig. 5.

Cluster result based on geographic location

Fig. 6.

Cluster result based on damage scale

Table 1.

Prediction performance evaluation of DT-Bagging based on rainfall scale

Table 2.

Prediction performance evaluation of DT-Bagging based on geographic location

Table 3.

Prediction performance evaluation of DT-Bagging based on damage scale

Fig. 7.

Scatter plot of DT-Bagging based on rainfall scale (showing strong predictive performance against actual values)

Fig. 8.

Scatter plot of DT-Bagging based on geographic location (showing strong predictive performance against actual values)

Fig. 9.

Scatter plot of DT-Bagging based on damage scale (showing strong predictive performance against actual values)

Table 4.

Prediction performance evaluation of LSTM based on rainfall scale

Table 5.

Prediction performance evaluation of LSTM based on geographic location

Table 6.

Prediction performance evaluation of LSTM Based on damage scale

Fig. 10.

Scatter plot of LSTM based on rainfall scale (showing reduced predictive performance)

Fig. 11.

Scatter plot of LSTM based on geographic location (showing reduced predictive performance)

Fig. 12.

Scatter plot of LSTM Based on damage scale (showing reduced predictive performance)

Table 7.

Prediction performance improvement by rainfall scale

Fig. 13.

Annual damage cost comparison: Actual vs DT-Bagging vs LSTM

Fig. 14.

Comparison of performance metrics by dataset size (means over 20 runs)

Acknowledgements

Conflicts of Interest

References