1. 서 론
2. 연구 방법
2.1 자료 구축
2.2 조건부 생성적 적대 신경망(cGAN)
2.3 다중입력 학습 체계 구축
2.4 성능 평가 지표
3. 모델 구축 및 결과 분석
3.1 모델 구축 및 실험 설계
3.2 지점 강우 자료 융합에 따른 효과 분석
3.3 강우 예측 성능의 정성적 평가
4. 결 론
1. 서 론
유역 단위 수문 시스템 모의 및 예측에는 입력자료인 강우의 공간적 분포 및 변동성이 큰 영향을 미친다(Gires et al., 2012; Schellart et al., 2012; Ochoa-Rodriguez et al., 2015). 이에, 정확한 유출량 예측을 위해서는 정확한 공간 강우량을 추정하는 강우 예측 모델이 필수적이다. 기존 강우량 추정에는 지점 강우관측소의 우량계를 통해 관측된 지점강우의 공간적 내삽법을 통해 공간 강우량으로 변환하는 방법과, 강우 레이더를 통한 강우량 추정법이 있다(Cole and Moore, 2008). 우량계를 통한 지점강우는 지표면 근처의 비교적 정확한 강우량 추정치를 알 수 있다는 장점이 있지만, 우량계 사이 강우의 시공간적 분포를 정확하게 알기 어려워, 추정된 공간 강우량의 정확도에 한계가 있다는 단점이 있다. 반면, 레이더의 경우, 넓은 지역의 공간적 강우분포에 대한 정보를 제공하기 때문에, 강우의 시공간적 변동성을 더 잘 반영하므로, 유역에 대한 강우 예측에 주로 사용되었다. 특히, 최근 레이더 자료를 이용한 머신러닝 기반 단기 강우예측 모델 개발 관련 연구가 활발히 수행되어 우수한 성능을 보였다(Shi et al., 2015; Agrawal et al., 2019; Ayzel et al., 2020; Trebing et al., 2021; Ravuri et al., 2021; Choi and Kim, 2022).
하지만 레이더는 강우량이 아닌 대기 중의 반사도를 측정한 후, 반사도를 통해 간접적으로 강우량을 추정하므로, 실제 유역에 떨어지는 강우량을 정확히 측정하는 데에 한계가 있고(Harrison et al., 2009; Krajewski et al., 2010), 특히 강우강도가 높은 극한강우의 경우 정확도가 더 감소한다는 단점이 있다(Einfalt et al., 2004; Bárdossy and Pegram, 2017). 이러한 입력자료 자체의 부정확성으로 인해 기존 레이더 기반 머신러닝 모델의 강우 예측 정확도 개선에도 한계가 존재한다.
지점강우와 레이더 강우를 결합하여 정확도 높은 공간 강우량을 추정하는 기술에 대해서는 여러 연구가 진행되었으나, 강우 예측(Quantitative Precipitation Forecasting, QPF)이 아닌, 강우 추정(Quantitative Precipitation Estimation, QPE)을 수행하는 연구가 주로 진행되었다(Fulton et al., 1998; Haberlandt, 2007; Wright et al., 2014; Berndt et al., 2014; Borup et al., 2016). 기존 레이더-지점 강우 병합 기법으로는 지점 강우를 이용한 레이더 추정치 보정기법인 평균오차보정(Mean Field Bias) (Ware, 2005; Kim et al., 2007), 레이더 공간정보를 사용한 지점강우 공간내삽법(e.g., Kriging) 등이 있다(Kim et al., 2008). Moraux et al. (2021)은 합성곱 신경망(Convolutnoal Neural Network, CNN) 기반 모델을 통해 지점강우, 레이더 및 위성이미지를 결합하여 QPE의 성능을 높인 연구를 수행한 바가 있다.
강우 예측 성능을 개선하기 위해 레이더 자료와 지점 강우 자료를 결합한 사례로는 주로 지점 강우 예측 정확도 개선을 위한 연구가 진행되었다. Cui et al. (2022)는 입력자료의 시간 및 공간적 정보를 효과적으로 학습할 수 있는 ConvLSTM 및 LSTM 기법을 활용한 multimodal data fusion 모델을 제안하여 두 가지 자료를 결합 시 강우 예측 정확도를 개선할 수 있음을 보였다. 이와 같이, 레이더 자료와 지점 강우 자료를 결합하여 고품질 공간 강우 자료를 생산(QPE)하는 연구는 활발히 진행되었으나, 특히 2차원 공간 강우 예측(QPF)을 수행하는 머신러닝 기반 예측 모델 개발 시 1차원 입력자료인 지점강우를 활용하는 연구는 상대적으로 부족하다. 이는 지점 강우 자료를 효과적으로 활용할 경우 머신러닝 기반 모델의 강우 예측 성능이 향상될 가능성이 있음을 시사한다.
본 연구에서는 레이더 자료를 사용하여 개발된 머신러닝 기반 강우예측모델 성능 개선을 위해 지점강우자료를 적용하는 새로운 방법론을 제안하고자 한다. 영산강 유역에 대한 6시간 예측 강우를 산정하는 모델 개발을 위해 조건부 생성적 적대 신경망(conditional Generative Adversarial Network, cGAN)을 활용하였다. 모델 훈련을 위해 기상레이더 합성장 자료를 활용하였으며, 훈련 시 함께 사용될 지점 강우 자료 구축을 위해 영산강 유역 내 레이더 도메인에 포함되는 15개 지점의 종관기상관측(Automated Synoptic Observing System, ASOS) 자료를 사용하였다. 2018년 강우 이벤트에 대한 최종 성능 평가를 통해 지점 강우 적용 유무에 따른 예측 성능 변화를 분석하였다.
2. 연구 방법
2.1 자료 구축
본 연구는 국내 영산강 유역을 대상으로 수행되었으며, 특히, 영산강 대권역 내의 두 중권역인 황룡강과 영산강 상류를 중심으로 도메인을 설정하였다(Fig. 1). 모델 구축 시 기본 구조로 사용된 Choi and Kim (2022)의 입력자료 형태(1 km의 공간 해상도, 10분의 시간 해상도)에 따라, 레이더 자료로는 동일한 시공간 해상도를 가지는 기상청에서 제공하는 1.5 km Constant Altitude Plan Position Indicator (CAPPI) 자료를 사용하였다. 한반도를 포함하는 960 × 1200 pixels의 레이더 합성장 자료를 사용하였으며, 모델 훈련을 위해 영산강 유역 학습 도메인에 대해 128 × 128 pixels로 추출하였다. 효과적인 훈련을 위해 레이더 반사도 값(dBZ)는 grey scale (0-255)로 변환되었다. 시간 단위 레이더 자료를 입력으로 하는 모델 개발을 위해 10분 간격의 레이더 자료를 각 시점에서 그대로 추출하여 훈련 샘플로 사용하였다. 이를 통해 모델이 시간 단위로 평균 또는 합산된 데이터에 의존하지 않고 원자료에 기반한 분석이 가능하도록 하였다.
본 연구에서는 모델 훈련시 사용될 지점 강우 자료 구축을 위해 기상청에서 제공되는 시간별 종관기상관측(ASOS) 강수량 자료를 이용하였으며, 앞서 구축된 레이더 자료와 동일한 도메인 내에 존재하는 15개의 관측소를 선정하였다(Fig. 1 and Table 1). 레이더 자료와 함께 모델 훈련과정에서 사용하기 위해 레이더 이미지에서 각 관측소와 가장 가까운 픽셀의 위치에 지점 강우량을 할당한 이미지 자료를 생성하였으며, 관측소 위치를 제외한 픽셀 및 결측치의 경우 NaN (Not a Number)으로 할당하여 실제 관측값만을 활용할 수 있도록 하였다. 이와 같이 모델 훈련을 위한 입력자료로 2차원 공간 보간 또는 결측치 보간을 수행하지 않은 지점 강우 원자료를 사용함으로써, 보간 과정에서 발생할 수 있는 불확실성을 줄이고(Huang et al., 2019), 개발된 모델이 원자료에 기반한 시공간적 특성을 반영할 수 있도록 하였다.
Table 1.
Information of selected 15 gauge stations (ASOS)
모델 훈련 및 평가를 위한 자료 기간으로는 2014년부터 2018년까지를 선정하였으며, 고강도의 강우가 주로 발생하는 여름철(6월~8월) 자료(총 15,278개 샘플)를 선택하였다. 2014년부터 2017년까지의 자료(총 12,684개 샘플, 83%)가 모델 훈련과정에 사용되었으며, 그중 무작위로 추출한 2,537개(17%)의 샘플 자료를 검증 자료로 활용하였고, 추출된 검증 자료는 훈련 자료(총 10,147개 샘플, 66%)에서 제외되었다. 최종 모델 성능 평가에는 2018년 여름철(6월-8월) 자료(총 2,594개 샘플, 17%)가 사용되어, 훈련, 검증 및 성능 평가 과정에 중복되는 기간이 없도록 구성하였다.
본 연구에서는 유역 특성정보인 토지피복자료와 지형정보를 추가 입력자료로 활용하여 강우 예측 성능을 높이고자 하였다. 지형정보와 같은 유역 특성은 온도, 습도, 구름 형성 등 대기 조건에 영향을 미치므로 강우 형성 및 분포에 직간접적으로 영향이 크다(Basist et al., 1994; Prudhomme and Reed, 1998). 사용된 지형 정보는 미국 지질조사국(U.S. Geological Survey, USGS)과 미국 국토지리정보국(National Geospatial- Intelligence Agency, NGA)에서 개발한 Global Multi-resolution Terrain Elevation Data (GMTED2010)를 기반으로 생성되었으며, 레이더 자료 기간에 해당하는 유역 특성을 반영하기 위해 환경부에서 제공하는 2018년도 기준의 중분류 토지피복지도를 기반으로 학습 도메인에 대한 토지피복자료를 생성하였다. 효과적인 훈련을 위해 구축된 모든 입력자료는 Min-Max scaling 기법을 통해 자료 값 범위를 0에서 1사이로 조정하는 전처리 과정을 수행하였다.
2.2 조건부 생성적 적대 신경망(cGAN)
생성적 적대 신경망(GAN)은 적대적 프로세스를 통해 데이터 생성기(e.g., CNN encoder-decoder)를 훈련하기 위해 최근에 개발된 구조로, 무작위 노이즈로부터 실제 데이터 분포를 생성하는 생성기(G)와 입력 샘플이 생성기에서 생성된 것인지 실제 데이터 분포에 있는 것인지 분류하는 판별기(D)로 구성된다(Goodfellow et al., 2014). 이러한 GAN 종류 중, 조건부 생성적 적대 신경망(cGAN) 구조는 훈련과정에 추가 조건(e.g., 생성기의 입력 자료 등)을 사용하여 특정 조건에 맞는 결과물을 생성할 수 있어, 이미지 생성 분야에서 뛰어난 성능을 보여주고 있다(Mirza and Osindero, 2014).
기존 cGAN 구조를 이용한 이미지 생성 과정에서는 생성기(G)가 무작위 노이즈(z)가 있는 입력(x)에서 목표 이미지(y)를 생성하도록 훈련된 경우, 판별기(D)의 목표는 손실 함수 을 최대화하려고 하는 반면 생성기(G)는 을 최소화하려는 목표로 훈련이 진행된다(Eq. (1)).
훈련과정에서, 생성기(G)는 생성한 결과 이미지를 판별기(D)가 실제 이미지(y)와 구별할 수 없도록 훈련되며, 판별기(D)는 생성기(G)가 생성한 결과를 가짜 이미지로 판별하도록 하는 적대적 프로세스로 훈련이 진행된다.
이러한 cGAN 기법을 기반으로 Isola et al. (2017)은 기존 에 실제 이미지와 생성된 모델 결과 이미지의 픽셀 단위 loss인 loss (Eq. (2))를 결합하는 Pix2Pix 모델을 제안하였다.
가중치 𝜆를 통해 loss와 를 결합하여, 최종 목표함수는 다음과 같이 작성할 수 있다(Eq. (3)).
Isola et al. (2017)은 제안된 cGAN의 훈련 과정을 적용한 U-Net 모델이 기존 U-Net 모델보다 더 고품질의 이미지를 생성할 수 있음을 입증하였다.
최근 cGAN은 기상 예측 연구에서 우수한 성능을 보여주고 있다(Rüttgers et al., 2019; Ravuri et al., 2021; Choi and Kim, 2022). Rüttgers et al. (2019)은 위성 구름 영상을 이용해 한반도 상공의 태풍 궤적과 구름 패턴을 성공적으로 예측할 수 있음을 보여주었으며, Ravuri et al. (2021)은 video GAN 모델(Clark et al., 2019)기반 강수 예측 모델을 개발하여 성능을 크게 향상시켰다. 또한, Choi and Kim (2022)는 cGAN 기법의 기본 구조인 Pix2Pix 모델을 기반으로 국내 소양강댐 유역에 대한 강우 예측 모델을 개발하였으며, 개발된 모델이 U-net 및 ConvLSTM 모델에 비해 최대 90분까지 강우 예측 성능을 성공적으로 개선시킬 수 있음을 보였다.
2.3 다중입력 학습 체계 구축
본 연구에서는 앞서 우수한 성능이 입증된 Pix2Pix 모델 기반 강우 예측 모델(Choi and Kim, 2022)을 기본 구조로 하여 레이더 및 지점 강우를 활용하는 학습 체계를 구축하였다(Fig. 2). 지점 강우를 모델의 생성기의 입력자료로 사용하는 것이 아닌, 훈련 시 사용되는 오차 계산에 활용하는 새로운 방법론을 제시하였다.
기존 Isola et al. (2017)이 제안한 Pix2Pix 모델에서는 cGAN loss에 레이더 이미지와 모델 결과 이미지 사이의 loss (Eq. (2))를 더하여 모델 훈련을 진행하였다. 본 연구에서는 지점 강우를 모델에 반영하기 위해 두가지 loss를 설정하였다. 먼저, 생성기(G)가 생성한 예측 이미지와 레이더 이미지(y) 사이의 픽셀단위 loss인 를 레이더 자료에 의한 loss로 설정하였으며(Eq. (4)), 생성기(G)가 생성한 이미지에서 지점 강우 관측소 위치의 최근접 픽셀의 예측값과 지점 강우() 사이의 loss인 를 지점강우에 의한 loss로 설정하였다(Eq. (5)).
최종 는 앞서 설정한 레이더 기반 loss와 지점자료 기반 loss의 가중치(,)합으로 이루어진다(Eq. (6)).
모델의 최종 목적 함수는 기존 Pix2Pix 모델의 최종 목적함수와 유사한 형태로, 에 가중치 𝜆로 앞서 구한 가 더해지는 형태로 구성된다(Eq. (7)).
개발된 다중입력 학습 체계를 통해, 모델은 레이더 자료 및 지점 강우 두 가지 다른 자료를 모두 반영하여 훈련할 수 있다. 특히, 제안된 학습 체계는 모델 훈련을 위한 오차 계산 과정에만 지점 강우를 활용함으로써, 모든 훈련이 완료된 후 저장된 생성기(G)를 통해 추후 레이더 반사도 예측을 생산할 때, 지점 강우를 추가 입력자료로 사용하지 않고, 레이더 자료와 유역특성만으로도 지점 강우를 반영한 예측 강우를 생산할 수 있다는 장점이 있다.
2.4 성능 평가 지표
본 연구에서는 지점 강우 결합에 따른 성능 개선효과를 평가하기 위해 Z-R 관계식을 통해 개발된 모델의 예측 반사도 결과를 강우 강도로 변환하여 결과 분석에 사용하였다. 층상형 강우의 비중이 높은 국내 지역에서 수행된 연구(Choi et al., 2018; Shin et al., 2021; Kim et al., 2024)에서 주로 사용되는 Marshall and Palmer (1948)가 제안한 Z-R 관계식을 사용하였다(Eq. (8)).
여기서 Z는 레이더 반사율 계수(mm6/m3)이고 R은 강우량(mm/hr)이다.
모델의 예측 성능을 평가하기 위한 지표로 상관계수 (Correlation coefficient, R), 평균제곱근 오차(Root Mean Squared Error, RMSE), Nash-Sutcliffe 효율계수(Nash-Sutcliffe Efficiency, NSE)를 사용하였다(Eqs. (9), (10), (11)) .
여기서 , 는 각각 총 자료기간 중 번째의 관측값 및 모델 예측값, 와 는 관측값과 모델예측값의 평균을 의미한다. R은 실제 강우량과 예측 강우량 간의 상관관계에 대한 지표로, 1에 가까울수록 모델 예측과 관측 간의 강한 양의 선형 관계로 모델의 성능을 설명할 수 있다. 모델 결과의 오차를 알 수 있는 RMSE를 통해 모델의 정밀도를 검증하였으며, NSE를 통해 모델의 정확성을 검증하였다. 모델 예측 성능 평가 시, NSE가 음의 값을 가질 경우 성능이 저조함을 나타내며, 양의 값을 가질 때 모델 예측을 사용하는 것이 관측값의 평균을 사용하는 것보다 더 나은 예측 결과를 얻을 수 있음을 의미한다.
본 연구에서는 강수 이벤트 예측에 대한 모델 정확도를 검증하기 위해 범주형 예보 성능 지표인 CSI (Critical Success Index), FAR (False Alarm Ratio), POD (Probability Of Detection)를 추가적으로 사용하였다(Eqs. (12), (13), (14)).
여기서 hits, false alarms, misses는 contingency table (Table 2)에 의해 결정되며, 특정 강우강도를 기준으로 강우 이벤트 발생 유무를 나누어 CSI, POD는 1에 가까울수록, FAR은 0에 가까울수록 모델이 실제 강우 이벤트 발생 유무를 정확하게 예측하는 것으로 설명할 수 있다. 본 연구에서는 강우 유무를 결정하는 강우 강도 기준을 다르게 설정하여 강우 강도에 따른 모델의 과소 또는 과대추정 경향을 평가하고자 하였다. 먼저 강우 이벤트 유무 예측을 위해 0.1 mm/hr를 기준으로 설정하였다. 이는 기상청 예보평가 시 3시간 내 0.1 mm 이상 나타날 때를 강수 발생으로 판별하며, 예보 시 0.1 mm 미만을 빗방울(육안으로 확인되나, 강수 기록이 어려움)로 표현하는 현행 기준에 따라 결정되었다. 또한, 기상 예보에서 약한 비를 판별하는 최소 기준인 1.0 mm/hr를 두 번째 강우 강도 기준으로 활용하여 실제 비로 판별되는 강우에 대한 모델의 예측 성능을 평가하고자 하였다.
3. 모델 구축 및 결과 분석
3.1 모델 구축 및 실험 설계
본 연구에서는 지점 강우 자료를 cGAN 기반 모델의 훈련과정에 추가하여 최대 6시간 선행시간의 강우 예측을 수행하고, 그 결과를 분석하고자 하였다. 모델은 6시간의 입력 및 출력 시퀀스를 가지며, 과거 6시간의 레이더 자료(t-5, t-4, t-3, t-2, t-1, t 시간)을 입력으로 하여 미래 1시간까지의 예측을 수행하도록 하였다. 기본 cGAN 모델의 구조를 결정하기 위해, t+1 시간에 대한 단일 결과를 생성하는 many-to-one 구조와 입력자료와 중첩되는 기간을 포함한 6시간 예측(t-4, t-3, t-2, t-1, t, t+1 시간)을 생산하는 many-to-many 구조를 비교한 결과, many-to-many 구조가 RMSE, CSI에서 각각 7%, 17%의 성능이 개선된 것을 확인하여 이를 최종 모델 구조로 선정하였다. 개발된 모델의 최대 예측 선행시간이 1시간이므로, 6시간까지 강우 예측 결과를 생산하기 위해 앞선 예측 결과를 다음 예측을 위한 모델 입력자료로 활용하는 재귀적 프로세스를 이용하였다.
최적의 모델 구축을 위해 레이더 기반 손실과 지점 강우 기반 손실의 가중치(,)를 모델의 주요 하이퍼파라미터로 하여 조정하는 과정을 수행하였다(Eq. (6)). : 0.1-0.9, : 0.9-0.1의 총 10개 가중치 쌍에 대한 모델 훈련을 진행하였으며, 검증 자료에 대한 모델의 1시간 예측과 관측값 사이의 RMSE, CSI (0.1 mm/hr 임계기준)을 계산하였다. 하이퍼파라미터 조정 결과, 모든 가중치 쌍에 대한 성능지표의 평균값 범위가 RMSE: 1.12 mm/hr - 3.96 mm/hr, CSI: 0.07 - 0.36으로, 가장 높은 성능을 기록한 =0.8, =0.2으로 최적 가중치 조합을 결정하였다. 최종 모델 훈련 시 최적화 과정에 ADAM (Adaptive Moment Estimation) optimizer를 사용, 과적합을 방지하기 위해 검증 자료 기반 loss를 통해 조기종료(Early stopping)를 결정하도록 하였다.
본 연구에서는 지점 강우 활용 방법에 따른 모델 성능을 분석하기 위해 총 4가지의 다른 입력자료 및 훈련 전락을 가지는 실험을 설정하였다(Table 3). 먼저, 지점 강우 자료 융합에 따른 효과를 분석하기 위해 레이더 자료 및 유역 특성만을 입력으로 하는 cGAN 기반 모델을 Case 1으로 선정하였고, 지점 강우 자료를 활용하여 훈련한 모델을 Case 2로 설정하였다. 또한, 지점 강우에 대한 loss 계산(Eq. (5)) 시, 각 관측소의 지점 강우 값에 대응하는 모델 예측 결과 값 산정 방법에 따른 분석을 위해 최근접 픽셀 하나에 대한 값을 사용한 Case 2와 달리, 관측소 위치를 중심으로 3 × 3 영역에 대한 평균을 해당 지점 강우에 대응하는 모델 예측값으로 사용한 경우(Case 3)에 대한 분석을 진행하였다.
Table 3.
Detailed description of each experiment (all experiment used domain characteristics data (topography, land use) as additional input)
또한, 레이더 자료에 비해 무강수(0 mm/hr) 사상이 다수 존재하는 지점 강우 자료의 특성에 따른 성능 평가를 위해, Case 2에서 무강수 사상을 제외한 지점 강우 자료를 모델 훈련에 적용한 경우(Case 4)에 대한 추가 분석을 수행하였다.
3.2 지점 강우 자료 융합에 따른 효과 분석
본 연구에서는 지점 강우 자료를 적용한 다중입력 학습 체계 기반 모델의 성능 개선 효과를 분석하기 위해 레이더 자료만을 이용해 훈련한 Case 1와, 지점 강우를 적용한 Cases 2-4를 통해 산출된 최대 6시간 선행시간에 대한 강우 예측을 관측값과 비교하여 성능 평가 지표를 계산하고, 계산된 성능평가 지표들은 각 선행시간에 대한 학습 도메인의 모든 격자에 대해 boxplot으로 표현되었으며(Figs. 3 and 4), 각 모델의 선행시간에 대한 성능 지표 평균값은 Table 4에 표현되었다.

Fig. 4.
Box plots of the verification metrics of model predictions at the lead time up to 6 hours over all grid cells from the Yeongsangang River domain. From top to bottom, the left panels represent CSI, FAR, and POD at intensity threshold of 0.1 mm/hr, while the right panels represent these metrics at intensity threshold of 1.0 mm/hr, respectively
Table 4.
Average of performance metrics by lead time for each model (best performance is indicated in bold)
상관계수 R 결과 비교를 통해, 선행시간 2시간 이전에 대해서는 지점 강우 자료를 반영한 Cases 2-4의 성능이 개선된 것을 확인할 수 있었으나, 선행시간 3시간 이후에서는 오히려 레이더 자료만을 사용한 Case 1이 더 좋은 결과를 보이는 것을 확인할 수 있으며, 이는 각 모델의 평균값을 통해서도 확인할 수 있다(Table 4). 하지만, RMSE와 NSE에서는 Case 1이 전반적으로 낮은 성능을 보이며, 특히 NSE 평균값의 경우, 모든 선행시간에서 음수를 기록하여, 모델의 성능이 평균값을 예측하는 것보다 낮을 수 있음을 보였다. 반면, 지점 강우를 적용한 경우, 지점 강우에 대한 오차 계산 시 모델 예측의 3 × 3 영역 평균값을 사용한 Case 3이 전반적으로 가장 좋은 성능을 보이는 것을 확인할 수 있다(Fig. 3, Table 4). 하지만, 무강수 사상을 제거한 지점 강우만을 사용한 Case 4의 경우, 선행시간 증가에 따라 RMSE와 NSE에 대한 성능저하가 크게 발생하여, 지점 강우 결합으로 인한 예측 성능 개선에 무강수 사상의 영향이 크게 존재함을 알 수 있다.
강우 강도 임계 기준 0.1 mm/hr에 따른 CSI와 POD를 비교한 결과, 지점 강우와 대응되는 모델 예측 값으로 최근접 픽셀만을 사용한 Case 2에서 가장 낮은 성능을 보이며, Cases 3-4에서 개선되었음을 확인할 수 있다. 반면, FAR 결과에서는 평균적으로 Case 2에서 가장 낮은 값을 기록하였으며, 이는 모델이 보수적인 예측을 수행하여 거짓 경보를 줄일 수 있지만, 중요한 강우 이벤트를 예측하는 성능은 떨어지는 것으로 해석할 수 있다(Fig. 4, Table 4).
Case 3은 Case 2보다 개선된 결과를 보이지만, 높은 임계 기준에서 전반적인 성능 저하가 크게 발생하는 것을 통해 과소추정 경향이 발생하며, 이는 10분 단위로 자료가 존재하는 레이더 자료에 비해, 1시간의 시간해상도를 가지며, 결측치 및 무강수 사상이 자주 발생하는 지점 강우 자료로 인해 발생하는 데이터 불균형으로 인한 다중 입력 학습 모델의 한계점으로 해석할 수 있다(Wang et al., 2016).
이러한 한계점을 극복하기 위해 무강수 사상을 제거한 Case 4에서는 무강수 사상에 의한 과소추정 경향을 해소할 수 있음을 보였다. 임계 기준 0.1 mm/hr에서 평균적으로 Case 4에서 가장 높은 CSI와 POD를 유지하는 것을 확인할 수 있으며, 임계 기준을 1.0 mm/hr로 증가시켰을 때도 Case 1과 유사한 예측성능을 유지하는 것을 확인할 수 있다(Fig. 4, Table 4).
3.3 강우 예측 성능의 정성적 평가
본 연구에서는 앞선 정량적 성능 평가에 대한 부가적인 설명을 제공하기 위해 특정 강우 이벤트(예측시간: 2018년 08월 27일 00:00)에 대한 예측 이미지를 생성하고, 정성적 성능평가를 진행하였다(Fig. 5). 또한, 해당 강우 이벤트 기간에 대한 지점 강우 관측값과의 시계열 비교를 통해 모델의 예측 성능을 평가하고자 하였다(Fig. 6).
최대 6시간 예측 선행시간에 대한 예측 이미지를 실제 레이더 기반 관측 이미지와 비교한 결과, 레이더 자료만 이용한 Case 1에서는 전반적인 강수 영역을 예측하지 못하며, 선행시간이 증가할수록 과대 추정 경향이 강해지는 것을 확인할 수 있다(Figs. 5 and 6). 이러한 결과는 각 예측 이미지와 관측 이미지 사이의 평균 RMSE에서(Table 5) 지점 강우를 활용한 Case 2-3의 RMSE가 약 0.2-2.7 사이를 유지하는 것과 달리, Case 1에서는 6시간 예측 시 RMSE가 최대 약 75까지 상승하며, 지점 강우와의 비교 RMSE에서도 최대 약 102까지(Table 5) 예측 성능이 크게 저하되는 것을 확인할 수 있다.
지점 강우 자료를 결합한 Case 2에서는 Case 1과 달리 강수 영역의 시공간적 변화를 잘 예측하는 것을 확인할 수 있으나(Fig. 5), 전반적으로 과소추정 경향이 존재하는 것을 확인할 수 있으며, 이러한 경향은 Case 3에서도 여전히 존재한다. 이러한 과소추정 경향은 Case 2-3의 지점강우 관측 값과의 비교(Fig. 6)를 통해서도 확인된다. 이를 통해 앞서 정량지표(Figs. 3 and 4)를 통해 확인한 바와 같이 선행시간 증가에 따라 지점 강우를 활용한 경우 성능이 더 낮아지는 현상이 지점 강우의 무강수 사상으로 인한 모델의 과소추정 경향으로 해석할 수 있다. 이를 해결하기 위해 지점 강우의 무강수 사상을 제거한 Case 4에서는 이러한 과소추정 경향이 해소되어 지점 강우와의 비교에서도 가장 좋은 성능을 보인 것을 확인할 수 있다(Figs. 5 and 6, Table 5).
Table 5.
Averaged RMSE (mm/hr) for model predictions compared to radar data and gauge observations at the forecasting time of 27 August 2018, 00:00(best performance is indicated in bold)
Lead time | Averaged RMSE compared with radar (Fig. 5) | Averaged RMSE compared with gauge (Fig. 6) | ||||||
Case 1 | Case 2 | Case 3 | Case 4 | Case 1 | Case 2 | Case 3 | Case 4 | |
1 hour | 4.7449 | 2.6922 | 2.5927 | 2.7180 | 9.4869 | 9.3014 | 9.2411 | 8.8781 |
2 hour | 9.0689 | 1.7576 | 1.7391 | 2.1821 | 10.0861 | 8.5728 | 8.5377 | 8.3936 |
3 hour | 12.9047 | 1.6778 | 1.6725 | 2.5335 | 15.1406 | 4.1059 | 4.0828 | 4.0459 |
4 hour | 24.6718 | 0.5952 | 0.6083 | 2.4870 | 29.9732 | 6.3899 | 6.3705 | 6.3203 |
5 hour | 49.0545 | 0.3798 | 0.3980 | 3.5060 | 66.2731 | 4.3408 | 4.3237 | 4.2615 |
6 hour | 74.7791 | 0.2779 | 0.3196 | 4.7420 | 102.8065 | 6.3243 | 6.3092 | 6.1499 |
정성적 평가를 통해 레이더 자료만을 이용한 Case 1에서는 선행시간이 증가하더라도 이전의 예측 결과 이미지와 유사한 결과를 생성하며 실제 강우의 시공간적인 패턴변화를 제대로 예측하지 못하는 것을 확인하였다. 이는 지점강우의 무강수 사상을 제거하여 상대적으로 레이더 자료에 대한 영향이 강화된 Case 4에서도 확인되며, 주 원인으로는 이전 예측 이미지를 입력으로 하여 다음 예측을 생성하는 재귀적 프로세스로 6시간까지의 예측을 수행하기 때문에 앞 시간의 예측 이미지의 영향이 크게 나타나는 것이 원인으로 판단된다. 이에 반해 무강수 사상을 포함한 지점 강우 자료를 활용한 Case 2-3의 경우, 전반적인 강우는 과소추정되었지만, 동일한 재귀적 프로세스를 이용했음에도 긴 선행시간에 대한 강우 패턴의 공간적 분포를 관측값에 더 가깝게 예측하는 것을 확인할 수 있다. 이를 통해, 지점 강우 자료의 결합은 과소추정을 발생시킬수는 있으나, 실제 강우에 가깝게 보정하는 효과가 있으며, 이는 머신러닝 기반 모델이 3시간 이상의 긴 선행시간에 대해서도 우수한 성능을 유지할 수 있는 새로운 방법론으로 활용될 수 있음을 시사한다.
4. 결 론
본 연구에서는 유역 유출량 예측에 중요한 요소인 공간 강우 예측 성능 개선을 위해 강우관측소의 지점 강우량과 기상레이더 자료를 모두 활용하는 머신러닝 기반 모델을 제안하였다.
기존 머신러닝 기법을 이용한 레이더 기반 강우 예측 모델의 경우, 입력자료로 레이더 자료만을 사용하여 실제 유역에 떨어지는 강우량을 정확하게 예측하는 데에 한계가 있다. 최근 이러한 모델의 성능을 개선하기 위해 구름 위성 영상들을 결합하는 방법론 등이 제시되었으나, 지점 강우자료를 직접적으로 이용하여 공간 강우 예측 결과를 계산하는 연구는 미흡하다.
본 연구에서는 이미지 생성 분야에서 우수한 성능을 입증하고, 레이더 기반 강우 예측 모델 개발에도 좋은 예측 성능을 보였던 cGAN 구조를 사용하였으며, 지점 강우의 영향을 훈련 중에 반영하는 새로운 학습 체계를 제안하였다. 결과를 통해 지점 강우를 적용한 모델의 경우, 레이더 자료만을 사용한 모델 보다 R, CSI, POD에서 전반적인 예측 성능이 낮아지는 현상을 볼 수 있었으며, 특정 강우 이벤트에 대한 정성적 평가에서 모델의 과소추정 경향이 원인으로 확인되었다. 이는 모델 훈련 시 사용된 10분 단위 레이더 자료보다 자료 수가 적고, 결측치 및 0 이 다수 존재하는 지점 강우 자료의 특성상 과소추정 경향이 발생하는 것으로 해석되며, 이러한 경향은 무강수 사상을 제거하고 훈련한 모델에서 해소할 수 있음을 보였다.
하지만, RMSE 및 정성적 평가에서 지점 강우의 무강수 사상을 제거한 경우보다, 모든 자료를 포함한 경우, 선행시간 증가에 따라 일관적인 예측결과를 생성하는 레이더 기반 모델의 한계점을 해소하고, 실제 강우 패턴과 가까운 결과를 생성할 수 있음을 입증하였다. 이를 통해, 추후 자료 기간 확장 및 모델 구조 개선을 통해 전반적인 성능이 향상될 수 있을 것으로 예상된다.
본 연구 결과를 통해 지점 강우를 함께 활용하는 것만으로 실제 관측에 가까운 공간 강우 분포를 생성하는데 도움을 줄 수 있고, 특히 훈련과정의 손실 계산 시에만 이용하여, 개발이 완료된 모델을 추후 활용 시 지점 강우를 추가로 입력할 필요 없이 레이더 자료만으로 지점 강우 효과가 반영된 결과를 산출할 수 있다는 장점이 있다. 다만, 본 연구에서는 성능 평가 시 사용된 강우 변환 과정에 단일 Z-R 관계식을 사용함에 따른 오차가 발생할 수 있으며, 이에 추후 다양한 강우 사상을 반영하는 Z-R 관계식을 적용함으로써 보다 정확한 강우 예측을 생산하여 실제 강우 예측 시스템에 유용하게 활용될 수 있을 것이라 기대한다.