1. 서 론
2. 연구 지역 및 연구 자료
2.1 연구 지역
2.2 연구 자료
3. 연구 방법
3.1 Random Forest (RF)
3.2 통계적 분석
4. 연구 결과 및 고찰
4.1 토양수분 추정 모델 개발 및 지점 기반 검증
4.2 영산강 유역에서 고해상도(10 m) 토양수분 지도 제작
4.3 모델의 한계점
5. 결 론
1. 서 론
전 세계적인 기후변화는 극한 기후 현상과 수재해(홍수, 가뭄 등)의 발생 빈도를 증가시키고, 수자원의 시․공간적 불균형을 유발하고 있다. 이에 따른 수자원 관리 대책의 마련을 위해 수문순환의 구성 요소를 유역 단위로 정량화하는 것은 필수적이다. 다양한 수문인자 중 토양수분은 토양 내 수분량을 나타내는 요소로, 지표와 대기 사이의 상호작용을 이해하는 데 중요한 수문인자이다(Seneviratne et al., 2006; Vereecken et al., 2008; Hagemann and Stacke, 2015). 또한, 지표로 도달하는 강수를 침투와 유출로 구분하고, 에너지 순환의 주요 요소인 잠열과 현열을 제어하는 등 수문 현상에 있어 중요한 역할을 수행한다(Dubois et al., 1995; Jiang et al., 2022). 토양수분은 수자원 관리, 농업, 가뭄, 홍수 등 다양한 수문기상현상에 직․간접적으로 영향을 미치기 때문에 정확한 관측 및 모니터링 체계 구축이 필수적이다(Kim et al., 2019).
국내에서 토양수분은 유전율식 방법(Dielectric constant method; Ok et al., 2019, Choi et al., 2022, Park and Kim, 2011, Lee et al., 2016), COSMIC-ray (Kang et al., 2020; Jeong et al., 2023), 모델을 활용한 방법(Hwang et al., 2006) 등 다양한 방법을 활용하여 정량화되고 있다. 이중, 유전율식 방법은 측정 장비 본체에서 발신한 신호의 반향파를 분석하여 토양의 유전율을 측정한 후, 토양의 유전율과 함수량 간의 상관관계를 활용하여 토양수분을 측정한다. 이 방법은 반향파를 분석하는 방법에 따라 TDR (Time Domain Reflectometry)과 FDR (Frequency Domain Reflectometry)로 구분한다. TDR은 신호의 주행시간 변화를, FDR은 신호의 진동수 변화를 분석하여 토양수분을 산정한다. 이러한 방법은 관측 지점에서 높은 정확도의 데이터를 수득할 수 있는 장점이 존재하지만, 균질하지 않은 토양에서 관측한 자료를 공간화하는 데 제한적이다. 따라서, 국내․외에서는 이를 해소하기 위해 1970년대부터 원격탐사를 기반으로 한 토양수분 추정을 주제로 연구가 진행되고 있다(Wang and Qu, 2009; Karthikeyan et al., 2017). 원격탐사 방법은 지점 관측 방법보다 상대적으로 낮은 정확도를 나타내기도 하지만, 광범위한 지역의 토양수분을 추정할 수 있다는 장점이 존재한다.
원격탐사 기반 토양수분의 추정은 다양한 기관의 위성 및 센서에 의해 이루어지고 있다. 대표적으로 활용되는 위성 및 센서는 일본 우주항공 연구개발기구(Japan Aerospace Exploration Agency)의 AMSR2(Advanced Microwave Scanning Radiometer; Okuyama and Imaoka, 2015), 미 항공우주국(National Aeronautics and Space Administration, NASA)의 SMAP (Soil Moisture Active Passive; Entekhabi et al., 2010a), 유럽우주국(European Space Agency, ESA)의 SMOS (Soil Moisture and Ocean Salinity; Kerr et al., 2012)와 ASCAT (Advanced Scatterometer; Wagner et al., 2013)이 있다. Kim et al. (2018)은 SMAP과 ASCAT, 그리고 AMSR2의 표층 토양수분을 전 세계 지점 관측 자료와 비교하였다. 그 결과, SMAP, ASCAT, AMSR2의 평균 상관계수(correlation coefficient, R)는 각각 0.74, 0.64, 0.65, bias는 -0.05 m3/m3, 0.001 m3/m3, 0.04 m3/m3로 나타났다. 해당 위성들은 표면 거칠기와 식생 피복의 변화에 민감하지만, 낮은 공간해상도(AMSR2: 10 km; SMAP: 9 km; SMOS: 35-50 km; ASCAT: 12.5 km)로 인해 복잡한 지형적 특성을 나타내는 국내에서 정확한 공간적 변동성을 모의하는데 한계점이 존재한다(Lee et al., 2017). 또한, 마이크로파 관측은 수역과 인접된 픽셀에 불확실성이 크게 존재하기 때문에, 저해상도 자료는 국내에서 활용이 제한적인 문제가 있다(Lee et al., 2017; Petropoulos et al., 2015). 이에, 국내․외에서는 ESA의 Sentinel-1 Synthetic Aperture Radar (SAR) 자료를 활용한 고해상도(10 m) 토양수분을 추정하기 위해 연구가 활발히 이루어지고 있다.
국외 사례로 Hajdu et al. (2018)은 뉴질랜드의 구릉지 농장에서 Random Forest (RF) 기법을 활용하여 토양수분 추정 모델을 개발하였다. 이 모델의 학습 과정에서는 정규식생지수(Normalized Difference Vegetation Index, NDVI)와 digital surface model에서 추출한 지형적 특성을 포함하였다. 모델의 평가 결과 결정계수(Coefficient of Determination; R2)는 평균 0.84로 나타났다. Chaudhary et al. (2022)은 토양수분을 추정하기 위해 12개의 머신러닝(support vector machine (linear, polynomial, radial, sigmoid kernel), RF, multi-layer perceptron, radial basis function, Wang and Mendel’s, subtractive clustering (SBC), adaptive neuro fuzzy inference system (ANFIS), hybrid fuzzy interference system, dynamic evolving neural fuzzy inference system)을 활용하였다. 모델의 입력 자료로는 VV (Vertical Transmit- Vertical Receive; ), VH (Vertical Transmit - Horizontal Receive; ) 편광이 활용되었다. 연구 결과 RF와 SBC, ANFIS가 우수한 성능을 나타내었다. 국내에서 Lee et al. (2017)은 농지를 대상으로 선형회귀(Linear regression, LR)와 SVR (Support vector regression)을 활용하였으며, 후방산란계수(backscatter coefficient)의 편광은 및 를 이용하였다. 연구 결과, LR과 SVR의 평균제곱근오차(Root Mean Square Error, RMSE)는 6.4-6.7%의 범위를 나타내었다. Kim et al. (2019)은 국내 51개 지점의 TDR 토양수분 실측값과 후방산란계수 사이의 관계를 이용하여 회귀모형을 도출하고, 토양수분의 공간 분포를 산정하였다. 연구 결과 후방산란계수와 토양수분 사이의 R이 0.7 이상으로 나타났으나, 지표 특성에 따른 불확실성이 발생하는 것을 확인하였다. Cho et al. (2021)은 한반도 중부의 농지와 산지, 그리고 초지(토지 피복별 2개소)의 식생 조건에서 Water cloud model (WCM)을 활용하여 토양수분을 산정하였다. 이를 지점 자료와 검증한 결과, 초지와 산지, 그리고 농지의 순서로 높은 정확도를 나타내었다. 특히, 산지에서는 R이 0.5 이상으로 나타나지만, 농지에서는 R이 0.3 미만으로 나타났다. Jeong et al. (2022)은 인공신경망(Artificial Neural Network, ANN) 기법을 활용하여 Sentinel-1 SAR 자료의 자립형 활용성을 평가하였다. , 와 Local incidence angle (LIA), 그리고 Dual Polarimetric Radar Vegetation Index를 활용하여 모델을 학습하였으며, 연구 결과 Sentinel-1에서 수득한 후방산란계수(, )는 토양수분의 거동과 유의미한 상관성을 나타내었다. Chung et al. (2023)은 Sentinel-1 기반 RVI (Radar vegetation index), DR (Depolarization ratio)과 Sentinel-2 기반 NDVI를 활용하여 WCM 방법론으로 토양수분을 산정하였다. 연구 결과, WCM을 통한 모의 오류는 실측 후방산란계수가 약 -12 dB을 나타내는 부분을 기점으로 증가하는 양상을 나타내었다. Cho (2024)는 Sentinel-1 기반 후방산란계수에 Change detection method를 적용하여 토양수분을 산정하였다.
위와 같이 Sentinel-1 SAR 영상과 다양한 방법론을 활용하여 토양수분을 산정하기 위한 연구가 진행되고 있다. 하지만, 아직 국내에서는 1) 1년 이상 연속된 Sentinel-1 SAR 자료가 활용되거나, 2) 고해상도 유역 평균 토양수분의 정량화 및 이에 대한 검증, 3) 산정한 유역 평균 토양수분의 계절적인 분석을 수행한 연구가 아직까지 부족한 상황이다. 따라서, 본 연구에서는 2015년 5월부터 2023년 8월까지 약 8년 간의 연속된 Sentinel-1 SAR 영상과 농촌진흥청, 기상청의 토양수분 실측값을 활용하여 토양수분 추정 모델을 개발 및 검증하였다. 또한, 개발한 모델을 활용하여 영산강 유역 토양수분 추정값의 공간적/계절적 변동성을 평가하였다.
2. 연구 지역 및 연구 자료
2.1 연구 지역
본 연구는 영산강 유역을 대상으로 수행하였다(Fig. 1). 영산강 유역은 4대강 중 하나인 영산강을 포함하여 5개의 국가하천과 163개의 지방하천으로 구성되어 있으며, 행정구역은 광주광역시, 전라남도, 전북특별자치도에 포함되어 있다. 영산강 유역은 북위 34.67°- 35.48°, 동경 126.43°- 127.10°에 위치하고, 총 유역면적은 3,371.4 km2, 본류의 유로연장은 136.0 km이다(https://www.me. go.kr/ysg). 전반적인 토지 피복은 임야 및 농경지(~52.6%), 도시(~7.0%) 등으로 구성되어 있으며(Lee et al., 2020), 유역의 토양은 사양질에서 식양질(1,735.32 km2), 식양질에서 식질(441.76 km2), 미사식양질에서 식질(389.62 km2)의 순서로 분포하고 있다(http://www. wamis.go.kr/). 1966년부터 2018년까지 영산강 유역 내 기상관측소의 관측 기록에 따르면, 유역의 연평균 기온은 13.4°C, 연평균 강수량은 1,304 mm로 나타났다(ME and K-Water, 2023). 영산강 유역은 5대 유역(한강, 낙동강, 금강, 섬진강, 영산강) 중 연평균 이용 가능한 수자원량이 5,792백만 m3 (8%)으로 가장 작고(MOLIT, 2016), 유역 내에는 다기능 보인 승촌보와 죽산보가 설치되어 있다(Kim et al., 2020).
2.2 연구 자료
2.2.1 Sentinel-1A/B
ESA가 개발하고 운용하는 Sentinel-1은 2014년 4월에 발사한 Sentinel-1A와 2016년 6월에 발사한 Sentinel-1B 위성에 의해 각각 12일의 시간해상도로 지구 현상을 관측하고 있다. 위성에 탑재된 C-band SAR 센서는 마이크로파를 송신하고, 반사 및 산란된 마이크로파를 수신하여 10 m 공간해상도로 후방산란계수를 제공하고 있다(Torres et al., 2012). 후방산란계수는 단위 면적당 수신된 신호의 크기로 제공하고 있으며, 토양의 수분함량 증가로 인한 지표와 대기 사이의 유전율 차이가 클수록 후방산란계수가 높아진다(Ulaby et al., 1978). Sentinel-1 SAR는 중심주파수 5.405 GHz에서 작동하기 때문에 날씨와 조도 조건에 관계없이 지구 현상을 관측하고, 영상을 취득할 수 있다(Filipponi, 2019). Sentinel-1은 활용 목적에 따라 IW (interferometric wide), WV (wave), SM (stripmap), EW (extra wide swath)의 4가지 영상취득모드를 제공한다. 각 영상모드로 관측한 데이터는 위상과 진폭으로 구성된 SLC (single look complex)와 GRD (ground range detected)로 구분된다(Kim et al., 2019). 영상취득모드와 관련된 자세한 사항은 Torres et al. (2012)에서 확인할 수 있다.
본 연구에서는 2015년 5월부터 2023년 8월까지 Leve 1 IW 모드에서 관측한 GRD 자료에서 및 와 LIA를 활용하였다. 또한, 연구에 활용한 Sentinel-1 SAR 자료는 ESA에서 제공하는 SNAP (Sentinel Application Platform)과 Python을 연동하여 후방산란계수 전처리를 수행하였다. 자세한 내용은 Fig. 2와 아래에 나타내었다(Filipponi, 2019).
1)궤도 보정(Orbit Correction): 최초로 제공받는 Sentinel-1 영상에 포함된 궤도 정보는 일반적으로 정확하지 않기 때문에, 추후 제공되는 정밀 궤도 정보를 적용하여 정확한 위성의 위치와 속도 정보를 추가한다.
2)경계 잡음 제거(Boarder Noise Removal): Sentinel-1 영상의 가장자리에서 발생하는 잡음(낮은 강도의 잡음, 잘못된 경계 데이터)을 제거한다.
3)열 잡음 제거(Thermal Noise Removal): 장면 간섭 효과를 줄이고, Sentinel-1 영상 전체에서 후방산란 신호를 보정하여 불연속성을 감소시킨다.
4)방사 보정(Radiometric Calibration): 각 화소의 강도(Intensity)를 후방산란계수로 변환하는 과정으로, 본 연구에서는 σ로 환산하였다. 또한, 이 과정에서 LIA 정규화를 수행하였다.
5)스펙클 필터링(Speckle Filtering): 스펙클은 여러 파장의 산란체에서 반사되어 간섭을 일으켜 나타나는 입상 잡음으로, Sentinel-1 영상의 품질을 개선하기 위한 필수 과정이다. 본 연구에서는 Lee 필터를 활용하였다.
6)지형 보정(Terrain Correction): Sentinel-1 영상에서 지형에 의해 발생하는 왜곡을 수정하기 위한 과정으로, 본 연구에서는 SRTM (Shuttle Radar Topography Mission)의 1-arc sec (30 m) DEM (Degital Elevation Model)을 활용하였다.
2.2.2 토양수분 지점 관측 자료(농촌진흥청 및 기상청)
연구에 활용한 토양수분 실측값은 농촌진흥청과 기상청이 제공하는 자료를 활용하였다. 농촌진흥청은 전국 211개 관측소를, 기상청은 전국 11개의 농업기상 관측소를 운영하고 있다. 관측 자료에는 토양수분을 포함하여 기온과 습도 등 다양한 수문기상인자를 포함하고 있다. 관측소에서는 유전율식 방법(농촌진흥청: TDR, 기상청: FDR)으로 토양수분을 측정하고 있으며, 관측자료는 공공데이터포털(https://www.data. go.kr; 농촌진흥청 관측자료)과 기상자료개방포털(https:// data.kma.go.kr; 기상청 관측자료)을 통해 수득할 수 있다.
본 연구의 지점 관측자료는 2015년 5월부터 2023년 8월까지 영산강 유역 내 관측소 4개소(농촌진흥청 3개소, 기상청 1개소)의 자료를 활용하였다. 농촌진흥청은 10, 20, 30 cm에서, 기상청은 10, 20, 30, 50 cm에서 토양수분을 측정한다. 본 연구에서는 C-band signal의 투과 깊이(penetration depth)를 토대로 표층 토양수분(10 cm) 자료를 활용하였다. 활용한 지점 관측 자료는 중앙값 절대 편차(Median absolute deviation, MAD)를 활용하여 이상치를 제거하였다(Eqs. (1), (2), (3), (4)). 관측소에 대한 지리적 특성 및 토지 피복 정보는 Fig. 1을 통해 확인할 수 있다.
여기서 는 표층 토양수분(10 cm), 는 스케일링 상수, erfcinv는 상보 오차 함수의 역함수(Inverse complementary error function), Scale_MAD는 스케일링된 MAD, 는 자료의 개수를 의미한다. 이상치는 Eq. (4)에 따라, 각각의 표층 토양수분에서 중앙값을 뺀 값의 절댓값이 Scale_MAD의 3배를 초과하는 경우로 정의하였다.
2.2.3European Centre for Medium-Range Weather Forecasts Reanalysis v5(ERA5)-Land
본 연구를 통해 도출되는 RF 기반 모델이 강수 사상에 대해 반응하는지 분석하기 위해 European Centre for Medium- Range Weather Forecasts Reanalysis v5(ERA5)-Land의 강수 자료를 활용하였다(Muñoz-Sabater et al., 2021). ERA5- Land는 강수 자료를 포함하여 총 50개의 변수를 hourly, 9 km의 높은 시․공간해상도로 전 지구에 걸쳐 제공한다. 본 연구에서는 2021년 1월부터 2023년 8월까지 시간 단위로 제공되는 강수 자료를 활용하였으며, Sentinel-1 SAR 영상과 가장 가까운 시간의 자료를 매치하여 활용하였다.
2.2.4SMAP/Sentinel-1 Level-2 Radiometer/Radar 30-Second Scene 3 km EASE-Grid Soil Moisture (SMAP/Sentinel-1)
SMAP/Sentinel-1 version 3 자료(https://nsidc.org/data/spl2smap_s/versions/3; DOI: 10.5067/ASB0EQO2LYJV)는 SMAP L-Band (~1.4 GHz) radiometer와 Sentinel-1A/B의 C-Band (~5.405 GHz) radar를 활용하여 산정한 토양수분 추정값으로(Das et al., 2019), 남위 60°부터 북위 60°의 범위에서 모든 경도에 대해 자료를 제공하고 있다. 본 연구에서는 2021년 1월부터 2023년 8월까지의 version 3 자료를 활용하였다.
3. 연구 방법
3.1 Random Forest (RF)
RF는 대표적인 앙상블(ensemble) 기반 머신러닝 방법론 중 하나로, 다수의 의사결정나무(decision tree, DT)를 활용하여 학습한다(Breiman, 2001). RF의 구동을 위해 원본 데이터 집합에서 중복을 허용한 부트스트랩 샘플링(boorstrap sampling)을 통해 서로 다른 특징을 나타내는 여러 개의 샘플을 생성하고, 각각의 샘플에 대해 DT를 생성한다. 여기서 각 DT는 무작위로 선택된 특성의 부분집합을 사용하여 학습되며, 모든 DT의 예측 결과를 집계하여 모델의 성능을 향상한다. 결과적으로 개별적 DT의 예측 값을 다수결 또는 평균하여 최종 추정값을 산정한다. 본 연구에서는 제한적인 관측소 수로 인해, 중첩을 허용하여 샘플링하는 bagging (bootstrap aggregating) 기법을 활용하였으며, 여러 개의 학습 자료로 구분하여 분산을 최소화하고자 하였다.
모델의 입력 자료는 Sentinel-1 SAR 영상의 , 를 활용하였다. 는 토양 내 수분에, 는 식생 내 수분에 상대적으로 큰 민감도를 나타내기 때문에 두 편광을 모두 활용하였다(Joseph et al., 2008; Vreugdenhil et al., 2018). 또한, 후방산란계수는 토양 표면과 식생으로 인한 지표 거칠기 및 지형적 특성(e.g., 고도, 경사각, 경사면 등)의 영향을 받기 때문에 LIA를 입력 자료로 활용하였다(Palomaki and Sproles, 2022).
Sentinel-1 SAR 영상은 2015년 5월부터 2023년 8월까지 총 361개를 수득하였으며, 지점 관측자료와 매치하여 총 1,142개의 데이터 셋을 확보하였다. 이중, 2015년 5월부터 2020년 12월까지의 자료를 학습 자료(817개)로, 2021년 1월부터 2023년 8월까지의 자료는 검증 자료(325개)로 구분하였다. 시계열적으로 연속된 수문기상 자료를 머신러닝으로 학습할 때 중요한 점은 학습 데이터가 특정 시기에 편향되지 않도록 하여 보다 정확하고 일반화된 모델을 개발하는 것이다. 이를 확인하기 위해 학습 과정에 활용한 Sentinel-1 SAR 영상의 월별 자료 수를 Fig. 3에 나타내었다. 전반적으로 월별 자료의 개수는 균등한 분포를 나타내었으며, 계절적으로는 봄(3-5월) 189개, 여름(6-8월) 202개, 가을(9-11월) 238개, 겨울(12-2월)은 188개로 나타났다. 전체 기간에 대해 균등한 학습 자료의 분포와 더불어, 높은 정확도의 토양수분 추정 모델 개발을 위해 초매개변수 최적화를 수행하였다. 본 연구에서는 초매개변수 최적화 기법 중 베이지안 최적화(Bayesian optimization algorithm)를 활용하였다. 추가로, 본 연구의 전반적인 흐름도를 Fig. 4에 나타내었다.
3.2 통계적 분석
본 연구를 통해 개발한 토양수분 추정 모델의 평가를 위해 통계적 분석을 수행하였다. 분석 과정에서는 Bias (Eq. (5)), RMSE (Eq. (6)), ubRMSE (unbiased Root Mean Square Error; Eq. (7))와 R (Eq. (8)), IOA (Index of agreement; Eq. (9))를 활용하였다. Bias는 편향을, RMSE는 추정값과 실측값 사이의 거리를 의미한다. ubRMSE는 추정값과 실측값 간의 편향(Bias)이 제거된 상태에서 계산한 오차를 의미한다. 즉, ubRMSE는 soil moisture anomaly에 대한 RMSE를 제동한다는 의미로, mean seasonal cycle을 제거한 상태에서 계산한 RMSE를 의미한다(Entekhabi et al., 2010b). Bias와 RMSE, 그리고 ubRMSE는 값이 0에 가까울수록 모델의 전반적인 일치도가 높은 것을 의미한다. R은 추정값과 실측값 사이의 선형적 상관성을 나타내며, 값이 1 또는 -1에 가까울수록 강한 선형적 상관성을 나타낸다. 마지막으로 IOA는 전반적인 값의 일치도를 나타내기 위해 활용한다. IOA는 0에서 1 사이의 값을 나타내며, 1에 가까울수록 모델의 예측값이 실측값과 잘 일치하는 것을 의미한다.
여기서 은 RF 구동을 통해 산정한 토양수분 추정값의 수, 는 번째 토양수분 추정값, 는 번째 토양수분 실측값, , 는 각각 토양수분 추정값과 실측값의 평균값을 의미한다.
4. 연구 결과 및 고찰
4.1 토양수분 추정 모델 개발 및 지점 기반 검증
Sentinel-1 SAR 영상 및 지점 관측 자료를 활용하여 RF 기반 토양수분 추정 모델을 개발하였다. 개발한 RF 기반 모델을 검증하기에 앞서, 입력 변수의 변수 중요도(feature importance)를 Fig. 5에 나타내었다. 본 연구에서 변수 중요도는 MATLAB 내장 함수인 ‘predictorImportance’를 통해 산정하였다. 구체적으로, 변수 중요도는 트리에서 각 가지 node의 분할 전후 위험도를 비교하여 감소량을 측정하는 방식으로 계산된다. ‘predictorImportance’는 모든 가지 node에서의 위험도 감소량을 종합하여 평균화된 변수 중요도를 산출하고, 이를 통해 각 예측 변수가 모델에 미치는 상대적 기여도를 평가한다. 본 연구를 통해 도출한 RF 기반 모델에서는 LIA (0.50)가 가장 높은 변수 중요도를 나타내었으며, 선행 연구에서도 후방산란계수보다 LIA (surface roughness)가 높은 변수 중요도를 나타낸 사례가 보고되었다(Dinesh et al., 2024). 본 연구에서 이러한 결과는 RF 알고리즘에서 변수의 값이 비교적 일정하여 변수 중요도가 상대적으로 크게 나타난 것으로 판단된다. 이어서 (0.24)와 (0.22)가 유사한 변수 중요도를 나타내었으며, 의 변수 중요도가 소폭 높은 값을 나타내었다. 또한, 일반적으로 , 는 토양수분이 증가함에 따라 유전율이 높아지고, 이와 함께 증가하는 경향을 나타낸다. 가 토양수분에 더 민감한 것으로 알려져 있지만, 본 연구에 활용한 지점 관측소 중 3개소가 Cropland 및 Grassland에 위치하여 식생 내 수분에 상대적으로 민감한 가 더 높은 변수 중요도를 나타낸 것으로 판단된다(Joseph et al., 2008; Vreugdenhil et al., 2018).
RF 기반 모델의 성능을 평가하기 위해 학습 과정에 포함하지 않은 검증 자료를 활용하였다. RF 기반 모델의 평가 결과, Bias, RMSE, ubRMSE, R, IOA는 각각 -2.90%, 6.89%, 6.25%, 0.75 (p < 0.01), 0.83으로 나타났다. Fig. 6은 RF 기반 모델의 검증 결과를 지점별로 구분하여 산점도로 나타낸 것으로, 토양수분 추정값은 전반적으로 과소 산정되었다. 장성 관측소에서는 데이터가 1:1 직선에 근접하게 위치하였으나, 실측값이 27.12%, 35.13%, 44.13%인 데이터의 경우 편차가 -6.96%, -9.00%, -22%로 크게 과소 산정되었다. 함평 관측소는 실측값의 변동이 약 30%에서 55%까지 넓은 범위를 나타내었으나, 추정값은 약 30%에서 45%까지 상대적으로 작은 변동 폭을 보였다. 반면, 나주 관측소에서는 토양수분 실측값이 약 30%에서 40%로 작은 변동 폭을 나타내었으며, 추정값은 20% 미만인 값부터 약 40%까지 큰 변동 폭을 나타내었다. 마지막으로 화순능주 관측소는 전반적으로 데이터가 분산된 형태를 나타내었고, 실측값이 약 20%로 나타나는 점을 기준으로 과대 산정과 과소 산정이 교차하는 것을 확인할 수 있다. 특히, 실측값이 약 20% 이상인 구간에서 과소 산정의 폭(Bias: -7.31%)이 크게 나타났다. 이와 같이 추정값이 지점 별로 다른 경향을 나타내는 것은, 모델 학습 과정에서 지점별 실측값의 경향이 다르게 반영되어 나타난 결과로 판단된다. Table 1은 모델 학습에 사용한 토양수분 지점 관측 자료의 최대/최소/평균값을 나타낸 것으로, 이를 통해 지점마다 상이한 실측값의 경향이 모델 학습 과정에 반영된 것으로 유추할 수 있다.
Table 1.
Average, maximum, and minimum soil moisture observed from study sites
Mean [%] | Max [%] | Min [%] | |
Jangsung | 35.75 | 48.62 | 23.93 |
Hampyeng | 40.87 | 52.95 | 28.90 |
Naju | 38.61 | 43.35 | 29.43 |
Hwasun Nyungju | 12.93 | 40.80 | 1.70 |
또한, 구간에 따른 추정값의 특성이 다르게 나타나므로, 검증 자료의 실측값(종속 변수)을 기준으로 33% 미만과 33% 이상으로 구분하여 각각의 구간에 대해 예측 성능을 평가하였다(Table 2). 33% 미만인 구간에서 Bias와 RMSE, ubRMSE, R, IOA는 각각 2.63%, 4.83%, 4.05%, 0.92(p < 0.01), 0.94로 나타났으며, 33% 이상인 구간에서는 각각 -1.79%, 3.10%, 2.53%, 0.73(p < 0.01), 0.80으로 나타났다. 33% 미만인 구간에서는 추정값과 실측값 사이의 오차가 크게 나타났지만, 선형적 상관성 및 일치성이 비교적 높게 나타났다. 반면, 33% 이상인 구간에서는 추정값이 과소 산정되는 경향을 나타내었지만, RMSE와 ubRMSE가 비교적 낮은 값으로 나타났다. 이처럼 개발한 RF 기반 모델은 실측값이 33%인 점을 기준으로 오차와 선형적 상관성, 그리고 일치도에서 상이한 경향을 나타내었다. 이와 같은 현상의 원인으로, 모델의 학습 과정에서 학습 자료의 실측값이 특정 구간에 집중되어 학습 과정이 편향된 것으로 판단된다. 따라서, 모델 학습에 활용한 자료를 두 구간으로 구분하여 자료의 수를 확인하였으며, 그 결과 전체 817개의 자료 중 33% 미만이 322개(39.41%), 33% 이상이 395개(60.95%)로 나타났다. 추가로, 학습 자료의 실측값 분포를 상자 그림으로 나타내었다(Fig. 7). 실측값이 33% 미만인 경우, 제 1사분위수(25% quantile; Q1)와 제 3사분위수(75% quantile; Q3)는 각각 7.30%, 28.70%로 그 폭이 33% 이상인 구간(Q1 = 36.94%. Q3 = 41.92%)보다 상대적으로 넓게 나타났다. 따라서, 33% 미만인 구간에 분포한 데이터의 변동성이 크게 나타남을 의미하며, 이러한 결과로 인해 33% 미만인 구간에서 산정한 추정값이 넓게 분산되어 나타난 것으로 사료된다.
Table 2.
RF-based Model validation results in two intervals (below 33%, above 33%)
Bias [%] | RMSE [%] | ubRMSE [%] | R [-] | IOA [-] | |
< 33% | 2.63 | 4.83 | 4.05 | 0.92 | 0.94 |
≥ 33% | -1.79 | 3.10 | 2.53 | 0.73 | 0.80 |
이어서, 입력 자료(, )의 변동이 토양수분의 변동을 충분히 반영하지 못해 학습 과정에서 입력 자료와 종속 변수의 관계를 적절히 학습하지 못한 것으로 판단된다. Fig. 8은 학습 자료의 와 실측값, 와 실측값의 관계를 나타내고 있다. 는 실측값이 35-45%로 나타나는 구간이 0-10% 구간보다 큰 변동폭을 나타내었으나, 35-45%에서 나타나는 실측값의 변동을 이 충분히 반영하지 못한 것으로 판단된다. 도 와 유사한 형태를 나타내었지만, 보다 작은 변동 폭을 나타내며, 군집의 형태를 보였다(Fig. 8(b)). 이러한 현상은 토양수분 함량이 35% 이상으로 나타났을 때, 레이더 신호가 토양수분에 둔감해지는 특성이 반영된 것으로 보인다(Kornelsen and Coulibaly, 2013). 따라서, 많은 수의 데이터가 변동성을 잘 모의하지 못하는 33% 이상 구간에서 RF 기반 모델의 예측 성능이 상대적으로 낮게 나타난 것으로 판단된다.
4.2 영산강 유역에서 고해상도(10 m) 토양수분 지도 제작
본 연구를 통해 도출한 RF 기반 모델과 2021년부터 2023년 8월까지의 Sentinel-1 SAR 영상을 활용하여 영산강 유역의 고해상도(10 m) 토양수분 지도를 제작하였다. 본 절에서는 1) RF 기반 모델이 계절적 변동성을 모의할 수 있는지, 2) RF 기반 모델이 강수 사상을 반영할 수 있는지, 3) NASA에서 제공하는 SMAP/Sentienel-1 토양수분과 비교하였을 때 더욱 개선된 통계적 유의성을 나타내는지 확인하였다.
유역을 대상으로 제작한 고해상도 토양수분 지도의 추정값을 산술평균하여 유역 평균 토양수분(유역 토양수분)을 산정하였다. 본 연구에서는 봄(3-5월), 여름(6-8월), 가을(9-11월), 겨울(12-2월)로 구분하여 유역 토양수분의 계절적 변동을 파악하였다(Fig. 9; Table 3). 계절적으로 가을에 가장 높은 유역 토양수분(32.60%)을 나타내었으며, 여름에도 비교적 높은 값(32.17%)을 나타내었다. 또한, 2021년부터 2023년 8월까지 103개의 유역 토양수분은 28-35% 범위 내에서 변동하는 것으로 나타났다(Fig. 9). 이러한 현상은 Fig. 10에 나타난 것과 같이, 도심지에서의 토양수분 추정값이 계절의 흐름(또는 시간의 흐름)에 따라 크게 변동하지 않는 것이 영향을 미친 것으로 사료된다. 즉, 계절적으로 안정적인 도심지(광주 지역, 35.207-35.139°N, 126.792-126.913°E)의 토양수분 추정값이 유역 토양수분으로 산정할 때 비교적 큰 값이며, 동시에 변동이 크지 않아(31.42-34.80%) 평균값의 변동이 작게 나타난 것으로 판단된다. 이러한 현상은 도심지의 후방산란계수가 모든 시기에 대해 변동 폭이 크지 않기 때문에, RF 기반 모델에 의해 추정값이 적절히 모의되지 못한 것으로 판단된다(Yoo et al., 2013).
Table 3.
Average soil moisture in a watershed by season, calculated using an RF-based model
Site name | N | Mean [%] | Minimum [%] | Maximum [%] |
Spring | 31 | 31.80 | 29.94 | 33.67 |
Summer | 28 | 32.17 | 30.25 | 34.01 |
Autumn | 23 | 32.60 | 31.20 | 33.89 |
Winter | 21 | 30.66 | 28.54 | 32.28 |
이어서, RF 기반 모델이 강수 사상을 모의할 수 있는지 확인하기 위해, 농촌진흥청 토양수분 관측 자료에 포함된 강수량을 토대로 관측소 3개소의 강수량을 수집하여 일평균 하였다. Fig. 11은 2023년 6월 17일과 6월 29일에 관측한 Sentinel-1 SAR 영상을 입력 자료로 활용하여 RF 기반 모델을 통해 지도를 제작하였다. Fig. 11(a)는 관측일 이전 5일간 무강수 상태가 지속된 후 관측한 영상을, Fig. 11(b)는 관측일 4일 전부터 관측일까지 일평균 19 mm 이상의 강수가 지속된 이후 관측한 영상을 활용한 것이다. Fig. 11에서는 강수 전・후에 따라 영산강 하류 지역의 토양수분 변화를 포착할 수 있으며, 산악 지역을 포함하여 전반적으로 유역 내 토양수분이 증가하는 경향을 나타내었다. 추가로, 정량적인 평가를 위해 ERA5-Land 산출물 중 강수 자료를 활용하여 유역 평균 강수량을 계산하고, RF 기반 모델을 통해 산정한 유역 토양수분과 시계열적 경향을 비교하였다(Fig. 12). 강수 자료는 Sentinel-1 SAR 영상의 관측 시간과 가장 가까운 관측 시간으로부터 -3시간까지의 강수량을 평균하였다. 즉, Sentinel-1 SAR 영상의 관측 시간이 2023년 6월 17일 09시 31분 32초라면, 지점 관측 자료는 2023년 6월 17일 06시부터 09시까지의 강수량을 평균하여 활용하였다. 전반적으로 강수 사상과 토양수분 증가 경향이 일치하였으며, 통계적 분석 결과 R은 0.30(p < 0.01)으로 선행연구와 유사한 결과를 나타내었다(Sehler et al., 2019).
마지막으로, NASA에서 제공하는 SMAP/Sentinel-1 토양수분 및 RF 기반 모델을 활용하여 산정한 토양수분을 4개 관측소의 실측값과 비교하였다. 그 결과 SMAP/Sentinel-1 토양수분(평균 Bias = -12.36%, 평균 R = 0.19)이 RF 기반 모델의 검증 결과(Bias = -2.90%, R = 0.75)보다 낮은 통계값을 나타내었다. 또한, SMAP/Sentinel-1과 RF 기반 모델을 활용하여 산정한 유역 토양수분을 각각 지점 기반 유역 토양수분과 비교하였다. 지점 기반 유역 토양수분은 본 연구에 활용한 4개의 관측소에서 관측한 토양수분 측정값을 산술 평균하여 활용하였으며, 2개 이상의 관측소에서 결측이 발생한 경우 해당 관측값은 제외하였다. Table 4는 통계 분석 결과를 나타낸 것으로, RF 기반 모델을 활용하여 산정한 유역 토양수분이 SMAP/ Sentienl-1 유역 토양수분보다 더 높은 정확도를 나타내었다. Fig. 13은 세 가지 유역 토양수분의 시계열적 경향을 나타낸 것이다. RF 기반 모델과 SMAP/Sentinel-1을 통해 산정한 각각의 유역 토양수분은 모두 지점 관측 값과 비교하였을 때, 과소 산정되는 경향을 나타내었다. Fig. 13에 따르면, RF 기반 모델은 비교적 작은 유역 토양수분의 변동 폭을 나타내기 때문에, 과소 산정과 과대 산정이 교차되었다. SMAP/Sentinel-1과 지점 관측 자료는 변동폭이 RF 기반 모델에 비해 크게 나타났으며, 이는 RF 기반 모델이 비교적 긴 시간에 걸친 가뭄이나 강수 사상에 대해 민감하게 반응하지 못할 가능성이 존재함을 시사한다.
Table 4.
Statistical analysis of watershed soil moisture based on RF-based models and SMAP/Sentinel-1
Bias [%] | RMSE [%] | R [-] | |
RF-based Model | -2.94 | 4.80 | 0.37 |
SMAP/Sentinel-1 | -6.02 | 8.72 | 0.28 |
4.3 모델의 한계점
본 연구를 통해 도출한 RF 기반 모델은 몇 가지 한계점이 존재한다. 먼저, RF 기반 모델의 학습 및 검증에 활용한 관측소는 총 4개소(장성, 함평, 나주, 화순능주)로, 이는 모델의 학습 및 검증에 충분하지 않을 수 있다. 또한, 농촌진흥청에서 제공하는 자료는 TDR, 기상청에서 제공하는 자료는 FDR로 관측하는 만큼, 관측 방법에 따른 측정값 사이의 오차가 발생할 수 있다. 두 번째로, RF 기반 모델 학습에 활용한 입력 자료는 총 3가지(, , LIA)로, 토지 피복 유형과 토질 등 국내에서 복잡하게 나타나는 토지 활용 및 지표면 특성을 충분히 고려하지 못할 수 있다. 현재 활용한 관측소 4개소는 cropland, grassland, built-up으로 구분된 만큼, 모델 학습 과정에 활용되지 않은 다른 토지 피복 유형에서는 토양수분 추정값의 정확도가 저하될 수 있다.
위와 같은 한계점으로, 추후 연구에서는 지점별로 상이한 관측 방법에 대한 오차의 보정 과정이 수행되어야 하며, 모델의 개선을 위해 식생, 인공 구조물, 토양의 특성, 지형 경사 등 지표면 특성을 더욱 효과적으로 반영할 수 있는 추가적인 입력 인자의 선정 과정이 선행되어야 할 것으로 판단된다.
5. 결 론
본 연구에서는 기존 토양수분 자료를 제공하는 위성(SMAP, ASCAT 등)의 낮은 공간해상도에서 비롯된 한계점을 극복하고자 Sentienl-1 SAR 영상과 RF 기법을 활용하여 고해상도(10 m) 토양수분 추정 모델을 개발하였다. 구체적으로, Sentinel-1 SAR의 와 , 그리고 LIA를 입력 자료로, 토양수분 지점 관측 자료를 출력 자료로 구분하여 학습을 진행하였다. 2015년 5월부터 2020년 12월까지의 SAR 영상을 학습 자료로, 2021년 1월부터 2023년 8월까지의 SAR 영상은 개발한 RF 기반 모델의 검증을 위한 검증 자료로 활용하였다.
개발한 모델을 통해 산정한 토양수분 추정값과 토양수분 지점 관측 자료를 비교한 결과, Bias, RMSE, ubRMSE, R, IOA는 각각 -2.90%, 6.89%, 6.25%, 0.75(p < 0.01), 0.83으로 나타났다. 전반적으로 선형적 상관성과 일치성은 우수하였으나, RMSE와 ubRMSE가 비교적 높게 나타났다. 또한, 실측값이 33%인 점을 기준으로 33% 미만(2.63%, 4.83%, 4.05%, 0.92, 0.94)과 33% 이상(-1.79%, 3.10%, 2.53%, 0.73, 0.80)으로 구분된 각각의 구간에서 상이한 성능을 나타내었으나, 전반적으로 유의미한 통계치를 도출하였다. 마지막으로, RF 기반 모델을 통해 추정한 토양수분은 계절적 변동성과 강수 사상을 효과적으로 모의하였다.
본 연구를 통해 개발한 RF 기반 모델은 영산강 유역에서 실질적으로 적용할 수 있을 것으로 기대된다. 추후 연구에서는 식생지수 및 토성 등 토양수분과 직접적으로 연관이 있는 자료의 시·공간 상세화 기법 적용을 통해 다양한 입력자료를 활용한다면, 모델의 활용성이 더욱 높아질 것으로 판단된다. 또한, 머신러닝 기법을 토대로 다양한 토양수분 값(재분석 자료 등)을 C-band 후방산란계수로 재생산한다면, 이 과정을 통해 시간해상도의 향상을 도모할 수 있을 것으로 판단된다. 해당 자료를 본 연구에서 제안한 방법으로 토양수분 추정에 활용하였을 때, 일별 고해상도 토양수분 추정값을 산정할 수 있을 것으로 기대된다. 이를 통해 개선한 모델은 토양수분의 시·공간적 변동성을 더욱 정확하게 모의함으로써, 추후에는 높은 시·공간해상도와 정확도로 유역 단위 토양수분 산정 및 모니터링에 이바지할 수 있을 것으로 기대된다.