1. 서 론
2. 자료 및 방법
2.1 연구대상지역 및 토양수분 관측자료
2.2 Google Earth Engine
2.3 AutoML
2.4 입력 자료 구축 및 분석
3. 결과 및 고찰
3.1 AutoML 학습 결과
3.2 기상학적 가뭄지수와의 비교검증
4. 결 론
1. 서 론
토양수분은 물 순환과정에서의 주요 인자로, 지표면에 공급되는 물을 저장해 증발, 침투, 유출 등 지표와 대기 사이의 에너지 균형을 유지하는 데 중추적인 역할을 하고 있다. 토양수분의 모니터링을 위해 일반적으로 Time Domain Reflectometry (TDR)과 같은 지점 관측장비를 활용하고 있으나, 광역적인 범위의 토양수분을 파악하기 어려울 뿐만 아니라 관측에 소요되는 비용과 인력 등의 한계점이 명확하다. 또한, 관측장비의 노후화와 적극적으로 수행되지 않고 있는 품질관리로 인해 신뢰성 있는 자료의 활용(수문 모델링, 기후변화 모니터링 등)이 어려운 실정이다(Kim and Kim, 2011; Lee et al., 2017, 2020).
지점 기반의 토양수분 관측 한계를 극복하기 위해 인공위성 원격탐사 기법을 활용해 토양수분을 모니터링하는 연구가 지속적으로 수행되고 있다. 인공위성 기반의 토양수분 산정은 광학(Optical) 및 열(Thermal) 센서 기반의 직접적 산정방식과 마이크로파 센서 기반의 간접적 산정방식 크게 두 가지로 구분되며, 두 방식 모두 위성영상 산출물(광학센서: 지표면온도, 식생지수 등; 마이크로파 센서: 밝기온도, 후방산란계수 등)과 토양수분 사이의 관계성을 파악하여 토양수분을 산정한다. 이때, 위성영상의 원시 영상(Raw image)을 보정하고 지수를 산정하는 등의 전후처리를 필요로 하게 되며(Narasimhan et al., 2005; Chung et al., 2020; Veysi and Galehban, 2024), 이러한 과정은 추가적인 비용과 시간이 요구된다.
최근 방대한 용량의 빅데이터 처리를 위한 클라우드 컴퓨팅에 대한 수요와 더불어 클라우드 자원에 온라인으로 쉽게 접근할 수 있는 접근성(Accessibility)이 높은 플랫폼의 수가 증가하고 있다. Google Earth Engine (GEE)은 Google에서 2010년 처음 소개된 클라우드 컴퓨팅 플랫폼으로, 다양한 위성영상, 공간정보, 기상 자료 등을 제공하고 있으며 대화형 프로그래밍 환경, 서비스형 플랫폼(Platform as Service, PaaS) 및 서비스형 소프트웨어(Software as a Service, SaaS) 기반의 빠른 처리 속도와 다양한 공간분석 도구를 제공함으로써 효율적으로 전 지구적 데이터 분석을 가능하게 한다(Zhao et al., 2021). GEE는 높은 접근성을 바탕으로 기후변화, 토지피복변화, 수자원, 재난 등 다양한 분야의 연구에서 위성영상을 처리하고 활용하는 데 널리 사용되고 있다(DeVries et al., 2020; Huang et al., 2018; Hao et al., 2019).
한편, 위성영상을 활용한 토양수분 산정연구는 기존 경험식 기반의 토양수분 산출물 대비 높은 정확도를 보이는 기계학습(Machine Learning, ML) 기반의 연구가 활발히 이루어지고 있다. 다양한 선행연구(Adab et al., 2020; Senanayake et al., 2021; Nguyen et al., 2022)에서 위성영상과 기계학습 기법을 결합해 신뢰도 높은 토양수분 산출물을 제작하여 기계학습 모형의 적용성 및 실효성입증한 바 있다. 최근에는 자동화기계학습(Automated Machine Learning, AutoML)의 개념이 등장하면서 기계학습을 적용하기 위한 지식 및 소요되는 시간과 인적 자원을 최소화할 수 있게 되었다. AutoML은 기법 간 성능의 비교평가를 쉽고 효율적으로 가능케 하여 다양한 분야에서 AutoML을 활용한 연구가 증가하고 있다(He et al., 2021).
본 연구에서는 우리나라 전역을 대상으로 GEE 플랫폼과 AutoML을 결합하여, 정확하고 시간 및 비용 효율적인 토양수분 모니터링 기법을 개발하고 그 성능을 평가하는 것을 목표로 하였다. GEE를 통해 2014년부터 2020년까지 총 7년간의 위성영상 및 공간정보 자료를 구축하였으며, 동 기간에 대해 농촌진흥청 토양수분 실측자료를 구축하여 모의 토양수분의 검증 및 기계학습 모형의 훈련에 활용하였다. 구축된 자료는 토양수분 관측소와 동일한 위치에서 값을 추출하여 데이터베이스화하였고, AutoML을 활용하여 다양한 기계학습 모형의 성능 비교평가를 통해 최적의 토양수분 산정모형을 선정하여 최종적으로 우리나라 전역에 대한 공간 토양수분 산정을 수행하였다. 본 연구 결과는 위성영상과 ML을 활용하여 기존 토양수분 산정모형 대비 정확도 향상, 클라우드 컴퓨팅을 통한 시간적, 인적 비용 절감을 통한 효율성 증대, 전국단위의 토양수분 산정을 통한 확장성 등 토양수분 모니터링 및 이를 활용하는 다양한 분야에 기여할 수 있을 것으로 기대된다.
2. 자료 및 방법
본 연구에서는 토양수분 산정모형 개발 및 공간 토양수분 제작을 위해 Fig. 1과 같은 절차를 수행하였다. 먼저, 실측 토양수분 자료는 농촌진흥청 농업기상 상세 관측데이터 Open Application Programming Interface (OpenAPI)에서 개인 컴퓨터로 저장할 수 있도록 하였다. 마찬가지로 토양수분 산정모형 개발에 필요한 공간자료들 또한 GEE API를 통해 GEE 서버에서 컴퓨터로 저장하게 된다. 구축된 데이터는 AutoML 모듈인 PyCaret을 통해 훈련 및 검증이 수행되어 최종 학습 모델이 저장되며, 개발된 모형은 GDAL (Geospatial Data Abstraction Library; GDAL/OGR Contributors, 2024) 라이브러리를 통해 공간 토양수분을 산정하고 일자별 결과가 저장된다. 각 단계별 입력자료 및 분석 방법은 다음과 같다(Fig. 1).
2.1 연구대상지역 및 토양수분 관측자료
본 연구의 대상 지역은 대한민국 전역이다. 농촌진흥청에서는 2024년 현재 211개소의 농업기상관측소(RDA, 2024)에서 지중 10cm 깊이에서 TDR 장비로 토양수분 모니터링을 수행하고 있으며, 전 국토에 걸쳐 관측소가 분포해 있다. 본 연구에서는 211개 관측소의 토양수분 관측자료를 수집하여 육안 판독을 통해 비정상적인 토양수분 거동이 나타나거나 자료를 제공하지 않는 관측소를 제외하고 총 56개 지점의 토양수분 관측소를 선정하였다(Fig. 2). 선정된 관측소의 공간적인 분포를 확인한 결과 경기도, 충청도 및 경상남도 지역의 관측소 개수가 상대적으로 적은 것으로 나타났다. 우리나라를 대상으로 하는 일반적인 토양수분 모형 개발 및 검증을 위해서는 다양한 지역적 특성을 가지는 실측자료가 필요할 것으로 판단되며, 추후 관측지점의 공간적 밀도를 균일하게 유지해야 할 것으로 사료 된다.
이후, 토양수분 관측자료의 품질관리(Quality Control, QC)를 위해 이상치 보정을 수행하였다. 토양수분 자료의 이상치는 센서의 오류나 토양의 결빙 등으로 인하여 센서에서 측정되는 값이 교란되어 정상적인 범주에서 벗어나는 경우를 의미한다. 이러한 오류를 보정하기 위해 국제 토양수분 관측망(International Soil Moisture Network, ISMN)에서는 토양수분의 물리적 범위, 지속성, 통계치 등의 다양한 기준을 통해 quality flag를 제시하고 있다(Dorigo et al., 2013). 본 연구에서는 Table 1과 같이 ISMN에서 제시하고 있는 3가지 범주(C: Exceeding plausible geophysical range, D: Questionable/ dubious, G: Good)의 quality flag를 토대로 56개 지점의 토양수분 자료의 비율을 계산하고 그 평균값을 분석하였다. 본 연구는 GLDAS (Global Land Data Assimilation System)의 기상 자료를 사용하지 않기 때문에, D03 및 D05는 분석에서 제외하였다. 토양수분의 물리적 특성에 따른 범위(0~60 vol.%) flag에 해당하는 C01, C02 및 C03은 각 0.3%, 0.0%, 0.0%로 일부 관측자료에서 음의 토양수분이 나타나는 오류가 발생한 것으로 확인되었다. 토양 온도에 따른 동결/융해(freeze/ thaw) 현황인 D01 및 D02는 1.0% 및 12.5%로 가장 많은 비율을 차지하였다. 강우에 따른 증감양상(D04) 및 시계열 토양수분의 급증/급감, 정체현상(D06, D07, D08, D09, D10)은 D10의 0.1%를 제외하면 오류가 나타나지 않았다. 본 연구에서는 C 및 D flag에 해당하는 토양수분 관측치를 제외하여 신뢰성 있는 토양수분 관측자료를 재선별 후 연구에 활용하였다.
Table 1.
ISMN’s QC module’s description (Dorigo et al., 2013) and the proportion of each flag in observed soil moisture data used in this study
2.2 Google Earth Engine
본 연구에서는 GEE를 활용해 대한민국 전역에 대한 위성 및 공간자료를 구축하였다. GEE에서는 JavaScript와 Python 기반의 API (Application Programming Interface)를 제공하고 있어 관심 영역(Area of interest, AOI)에 대한 자료의 다운로드나 GEE 플랫폼에서 표출이 가능하다. Python API를 활용해 한반도를 포함하는 AOI (N33°~43°, E124°~131°)를 설정 후 이에 대한 위성 및 공간자료를 다운로드 하였으며, 구축된 자료의 상세정보는 다음과 같다.
2.2.1 MODIS
MODIS (Moderate Resolution Imaging Spectroradiometer)는 미항공우주국(National Aeronautics and Space Administration, NASA)에서 운영 중인 지구 관측 위성 Terra와 Aqua에 탑재된 핵심 센서이다. MODIS는 상공 705 km 고도에서 36개의 분광 밴드를 통해 0.4~15.4 µm 파장 영역을 관측하며, 밴드에 따라 250~1000 m의 공간해상도로 전 지구 영상을 하루 또는 이틀에 걸쳐 제공하고 있다. GEE에서는 다양한 MODIS collection을 제공하며, 본 연구에서는 토양수분과 관련된 product인 정규식생지수(Normalized Difference Vegetation Index, NDVI) 및 지표면온도(Land Surface Temperature, LST) 자료를 구축하였다.
구축한 MODIS NDVI는 1 km 공간해상도의 16-day composite MOD13A2이며, NDVI는 적색(Red), 근적외(Near Infrared) 파장 반사율을 통해 다음 Eq. (1)과 같이 계산된다.
NDVI는 -1.0~1.0 사이의 범위를 가지며, 식생 지역의 경우 0.1~0.7의 값을, 밀도가 높은 식생 지역은 적색 반사율은 낮고 근적외 반사율은 높아 0.5 보다 큰 값을, 식생이 없는 나지, 암석, 모래, 눈에서는 0.1 미만의 값을 가진다(Knipling, 1970; Tucker, 1979; Rulinda et al., 2012).
MODIS LST는 2개의 열적외(Thermal Infrared, TIR)밴드를 이용한 generalized split-window LST algorithm (Wan and Dozier, 1996; Wan, 2007)을 통해 계산되며, 산출된 LST는 일별, 8-day composite, monthly 자료가 제공되고 있다. NDVI와 달리 LST는 다양한 요소에 의해 시시각각 변화하는 특성을 가지고 있어 일별 자료를 활용하는 것이 유리하나, 광학 위성의 한계점인 구름에 의한 영상의 오염은 일별 자료를 활용하는데 어려움을 준다. 특히, 여름철의 비구름이나 겨울철의 눈구름에 의해 특정 날짜의 영상에는 유효한 픽셀이 존재하지 않는 경우도 발생한다(Lee et al., 2015). 이에, 본 연구에서는 구름에 의해 오염된 픽셀을 gap-filling 기법을 통해 보정한 gapless LST 자료를 활용하였다(Zhang et al., 2021). 해당 LST 자료는 1 km 공간해상도로 일별로 제공되며, 실측치를 활용해 검증한 결과 daytime LST의 RMSE는 1.88K, nighttime LST의 RMSE는 1.33K로 높은 정확도를 보인 바 있다.
2.2.2 Global Precipitation Measurement
GPM은 NASA와 일본우주항공연구개발기구(Japan Aerospace Exploration Agency, JAXA)의 협력으로 시작된 국제 위성 네트워크로, 기존 강수 및 기상 관측 위성 Tropical Rainfall Measuring Mission (TRMM)의 성공을 바탕으로 구축된 후행 임무이다. GPM은 파트너 국가컨소시엄(CNES, ISRO, NOAA, EUMETSAT 등)의 레이더 및 복사계 기반의 강수 관측 위성 집합체를 운영하여 전 지구에 대한 가장 정확하고 높은 시공간 해상도의 강수량 제공을 목적으로 하고 있다(Huffman et al., 2015). GPM core 위성의 핵심 센서는 Ku-band 이중 파장 강우 Radar (Dual-frequency Precipitation Radar, DPR) 센서를 탑재하고 있으며, 준 실시간(Near Real Time)으로 관측이 가능하다. NASA에서는 TRMM과 GPM의 강수량 추정치를 결합하는 Integrated Multi-satellitE Retreivalsfor GPM (IMERG) 알고리즘을 통해 약 10 km (0.1°) 공간해상도로 매 30분마다 전 세계 강우량 자료를 생성하며, 3개의 데이터 처리 형태(Early, Late, Final)로 제공되고 있다. GEE에서는 현재 Level-3 IMERG V6 기반의 GPM 강수량 영상을 협정 세계시(Coordianted Universal Time; UTC) +0 기준으로 제공하고 있으며, 본 연구에서는 2014년부터 2020년까지 총 7개년의 강수량 영상을 수집하고 한국 표준시(UTC +9)를 고려하여 일 단위로 누적하여 일 누적 강수량 영상을 생성하였다.
2.2.3 Global GIS 자료
GEE에서는 다양한 플랫폼의 위성 영상뿐 아니라 지형, 토지피복, 농경지 자료를 포함한 지구물리학적 공간자료를 제공하고 있다. 본 연구에서는 토양수분에 영향을 주는 지형자료와 토양특성 자료를 연구에 활용하였다. 지형자료로는 공간해상도 90 m의 Shuttle Radar Topography Mission (SRTM)의 Digital Elevation Model (DEM)과 이를 활용해 제작된 경사향(slope) 자료를 수집하였다(Jarvis et al., 2008). 토양특성 자료는 International Union of Soil Sciences (IUSS)와 The United Nations Educational, Scientific and Cultural Organization (UNESCO)의 권고에 따라 설립된 과학재단 International Soil Reference and Information Centre (ISRIC)에서 제작한 격자 기반 전 세계 토양 데이터베이스인 SoilGrids250m (Hengl et al., 2017)를 활용하였다. GEE 내에서 제공하는 SoilGrids250m 자료는 다음의 Table 2와 같다. 본 연구에서는 용적밀도(bulk density), 모래 및 점토 함량(clay, sand content), 토양 유기탄소 함량(soil organic carbon content), 포장용수량(field capacity) 자료, 토양 pH (Soil pH in H2O), 미 농무부(United States Department of Agriculture, USDA) 토성 분류(soil texture classes)를 선택하여 기계학습 모형의 입력자료로 활용하였다.
Table 2.
Database of SoilGrids250m in Google Earth Engine
2.3 AutoML
기계학습 기법은 위성영상을 활용한 토양수분, 기후변화 모니터링과 같은 복잡한 수문해석에서 좋은 성과를 보여주고 있다(Liu et al., 2017; Lee et al., 2019). 하지만, 점점 더 복잡하고 심층적인 기계학습 모형들이 제안되기 시작하면서 기계학습 모형의 초매개변수(Hyperparameter) 또한 기하급수적으로 늘어나며 시행착오 과정을 거쳐 수동적으로 최적화하기에 상당히 많은 시간과 컴퓨팅 리소스가 필요해졌다(He et al., 2021). 이에 따라 기계학습의 전체 파이프라인을 자동화하는 AutoML의 개념이 등장하였다(Fig. 3). AutoML은 통계 및 기계학습 지식에 대한 많은 요구 사항 없이 고품질의 기계학습 모형을 자동으로 설계할 수 있는 장점이 있다. 본 연구에서는 Python 기반의 AutoML 라이브러리인 PyCaret을 활용하여 기계학습 모형을 개발하였다(PyCaret, 2020). PyCaret은 오픈소스(Open-Source) 기반의 기계학습 라이브러리와 대비하여 코드 구조를 단순화 시킬 수 있으며, scikit-learn, XGBoost, LightGBM, CatBoost, Optuna, Hyperopt, Ray 등과 같은 여러 기계학습 라이브러리 및 프레임워크를 활용하여 자동으로 모형을 최적화한다.
PyCaret 라이브러리에서는 “compare_models()” 함수를 통해 다양한 기계학습 모형의 초매개변수를 기본값으로 설정했을 때의 성능 지표를 계산하여 성능이 가장 좋은 순서대로 정렬된 표를 제공한다. 본 연구에서 사용된 기계학습 모형은 Random Forest Regressor (RF), Extreme Gradient Boosting (XGB), Extra Trees Regressor (ET), Light Gradient Boosting Machine (LightGBM), Gradient Boosting Regressor (GB), Decision Tree Regressor (DT), K Neighbors Regressor (KNN), AdaBoost Regressor (AB), Ridge Regression (Ridge), Least Angle Regression (LAR), Elastic Net (EN), Lasso Regression (Lasso), Lasso Least Angle Regression (LassoLAR), Linear Regression (Linear), Orthogonal Matching Pursuit (OMP)의 총 15종류이며, 설정한 성능 지표는 결정계수(Coefficient of determination, R2), 평균제곱근오차(Root Mean Square Error, RMSE), 평균절대비오차(Mean Absolute Percentage Error, MAPE)이다.
2.4 입력 자료 구축 및 분석
본 연구에서 토양수분 산정을 위해 활용한 GEE 데이터의 구성을 정리하면 Table 3과 같다. 모든 데이터세트는 GEE 플랫폼으로 불러와 필요한 경우 구름 제거, 방사 보정 등의 전처리를 수행하였고, 1 km 공간해상도로 리샘플링(resampling) 하여 모든 자료의 해상도를 통일한 후, 한반도 전역에 대한 범위로 잘라내었다. 이후, GEE 서버상에 구축된 자료를 내려받아 각 자료에 대한 입력자료를 실측 토양수분 관측소와 동일한 좌표에서 추출하였다. Table 3에 표기된 위성 영상 자료는 추가적인 계산을 통하여 새로운 변수들을 제작하였으며, 일 누적 GPM 강수량자료는 선행 5일에 대한 강수량, 선행 5일에 대한 누적 강수량 및 평균 강수량, 선행연구(Chung et al. 2021)에서 제시된 누적 무강우일수를 제작하였다. MODIS NDVI의 경우, n-16일 시점에서 n일 시점까지의 식생은 급격하게 변화하지 않는다는 가정하에 n-16일~n-1 시점까지의 NDVI는 n-16일의 NDVI 값으로 통일하여 사용하였다. MODIS LST는 Terra 위성의 경우 오전 10:30에 촬영된 LST_day, 오후 10:30에 촬영된 LST_night 자료가 있으며, 본 연구에서는 LST_day, LST_night 및 두 자료의 합계 및 평균 자료를 제작하여 활용하였다. 추가적으로, 토양수분의 계절별 변동성을 고려하기 위해 명목형 데이터인 계절 구분(봄: 1, 여름: 2, 가을: 3, 겨울: 4)을 입력 자료로써 고려하였다.
Table 3.
Google Earth Engine datasets used in this study
Fig. 4는 제작된 입력자료의 변수 중요도(Feature importance)를 나타낸 것이다. 토양수분 산정 시 가장 영향을 주는 인자는 누적 무강우일수(DRY)와 NDVI로 나타났다. USDA의 토성 분류는 모든 변수 중 중요도가 가장 떨어졌으며, 중요도 점수 0.04를 기준으로 선행 5일까지의 강수량(GPM_1, GPM_2, GPM_3, GPM_4, GPM_5), 토양 유기탄소 함량(ORGN), 포장용수량(FCAP), 고도(DEM), 당일 강수량(GPM), 선행 5일 누적 강수량(GPM_SUM), 평균 LST(LST_AVG)의 중요도가 낮게 나타나 해당 자료들은 훈련 시 입력자료에서 제외하였다. AutoML의 실행을 위해 수집된 자료를 7:3으로 분할하여 훈련 및 검증을 진행하도록 하였으며, k-fold cross validation 및 early-stopping 기법을 적용하여 과적합을 방지하도록 하였다.
3. 결과 및 고찰
3.1 AutoML 학습 결과
Fig. 5는 기계학습 모형별 성능 지표를 정리한 것이다. 상위 3개의 성능을 보이는 기계학습 모형은 RF (R2: 0.69, RMSE: 4.01 vol.%, MAPE: 0.15), XGB (R2: 0.66, RMSE: 4.21 vol.%, MAPE: 0.17), ET (R2: 0.66, RMSE: 4.26 vol.%, MAPE: 0.16) 순으로, Tree 계열의 기계학습 모형이 토양수분 산정에 적합한 것으로 나타났다. 반면, 기본적인 회귀모형인 Linear와 greedy 알고리즘 기반의 OMP는 해를 찾아내지 못하는 수준의 성능을 보였다(R2: 0.00, RMSE: 7.25 vol.%, MAPE: 0.33). Linear의 개선 모형인 LASSO 및 LassoLAR의 경우 두 모델에 비해 약간 향상된 성능을 나타냈으나 만족할만한 수준의 성능은 보이지 않았다(R2: 0.22, RMSE: 6.39 vol.%, MAPE: 0.28). 다음 Table 4는 각 기계학습 기법별 비교평가에서 가장 높은 정확도를 보인 RF의 k-fold 교차검증(cross-validation) 결과를 나타낸 것이다. 평가지표는 마찬가지로 R2, RMSE 및 MAPE를 기준으로 하였으며, 5번의 fold를 통한 교차검증 결과는 R2의 경우 표준편차 0.01, RMSE는 0.04 vol.%, MAPE는 0.00으로 각 fold 별 모의 정확도의 편차가 크게 나타나지 않았다. 따라서, RF 모형을 토양수분 산정 최적 모형으로 선정하고 초매개변수의 최적화를 수행하였다. Optuna (Akiba et al., 2019) 프레임워크를 기반으로 최적화를 수행하였으며, 최적화 방식은 손실함수인 평균제곱오차(Mean Square Error, MSE)를 최소화하는 방향으로 설정하였다. Fig. 6은 최적화된 초매개변수를 통해 최종적으로 산정된 RF 기반의 실측 및 모의 토양수분의 산점도(scatter plot)를 나타낸 것이다. 해당 산점도에서는 점들이 1:1 선(흑색 점선)에 가까울수록 모델의 예측이 정확함을 나타내며, 적색 점선은 실측값과 모의 값의 추세선을 나타낸 것이다. 초매개변수의 최적화를 통해 매우 높은 정확도를 보이는 것을 확인할 수 있었으며, 기존 모형의 성능 대비 R2는 4.3%, RMSE는 32.7%, MAPE는 6.7%의 성능 향상을 보였다(R2: 0.72, RMSE: 2.70 vol.%, MAPE: 0.14).
Table 4.
K-fold cross-validation result for Random Forest Regressor with initial hyperparameter settings
Fold | *R2 | *RMSE (vol.%) | *MAPE |
1 | 0.69 | 3.97 | 0.15 |
2 | 0.69 | 4.07 | 0.15 |
3 | 0.70 | 3.95 | 0.15 |
4 | 0.70 | 4.01 | 0.15 |
5 | 0.69 | 4.03 | 0.15 |
Mean | 0.69 | 4.01 | 0.15 |
Std. | 0.01 | 0.04 | 0.00 |
3.2 기상학적 가뭄지수와의 비교검증
본 연구에서 산정된 토양수분의 유효성을 검증하기 위해 기상학적 가뭄지수인 표준강수지수(Standardized Precipitation Index, SPI; McKee et al., 1993)와의 비교를 수행하였다. 토양수분의 절대적인 수치와 정규화된 SPI와의 수치적 비교는 유효하지 않기 때문에, 동일한 척도에서의 비교를 위해 표준토양수분지수(Standardized Soil Moisture Index, SSMI; Hao and AghaKouchak, 2013)를 산정하였다. SPI는 기상청 기상자료개방포털(https://data.kma.go.kr/)에서 제공하는 66개 지점자료를 수집하였으며, 생성된 공간 토양수분 자료에서 동일한 지점의 토양수분 값을 추출하고, SSMI를 산정하였다.
Fig. 7은 SPI와 SSMI의 시간 척도별(1개월, 2개월 및 3개월) 피어슨 상관계수(Pearson’s correlation coefficient, R)를 상자 그림(boxplot)으로 나타낸 것이다. SPI 및 SSMI의 비교에서 1개월 척도에서는 최소 0.11, 최대 0.63, 평균 0.41, 2개월 척도에서 최소 0.13, 최대 0.62, 평균 0.39, 3개월 척도에서 최소 0.05, 최대 0.62, 평균 0.35의 상관계수를 보여 시간척도가 증가할수록 토양수분과 강수량 간의 상관성이 점점 떨어지는 양상이 나타났다. 본 연구에서 활용한 토양수분량은 지표 하 10cm에서 측정된 지표 토양수분으로, 근권(root zone) 토양수분이나 기상학적 요소에 비해 상대적으로 순간적(instantaneous)인 변화를 보이게 된다. 따라서, 시간척도의 증가에 따라 상관성이 감소하는 현상이 나타나는 것은 타당하다고 볼 수 있으며, 평균적으로 상관성이 높았던 1개월 척도의 SPI와 SSMI의 공간적 분포를 비교하고자 하였다.
Fig. 8은 가뭄이 극심하였던 2015년을 대상으로 월평균 SSMI-1(Fig. 8 상부) 및 SPI-1(Fig. 8 하부)의 공간분포도를 나타낸 것이다. SSMI의 경우 1월과 2월에 강원도 지역에 전체적으로 가뭄양상이 나타났으나 SPI의 경우 강원도의 일부 지역에 가뭄양상이 나타났다. 이후 6월부터 10월까지 SSMI는 가뭄이 지속되는 것으로 표현하였으나, SPI에서는 10월에 전국적으로 해갈되는 양상이 나타났으며, 가뭄양상이 발생한 지역의 분포도 완벽히 일치하지는 않았다. 하지만 가뭄이 해갈되는 11월 및 12월의 분포는 매우 유사하게 나타났으며, 1년 전체로 보았을 때 가뭄의 시작과 종료 시점, 지역의 분포가 다소 다르게 나타나지만 두 가뭄지수 간의 유사성을 확인할 수 있었다.
4. 결 론
본 연구에서는 방대한 양의 공간자료 처리와 복잡한 기계학습 절차의 간소화를 위해 GEE와 AutoML 모듈을 활용하여 토양수분 산정모형을 개발하고 농촌진흥청에서 제공하는 실측 토양수분 관측지점에 대한 적용성을 평가하였으며 주요 연구 결과는 아래와 같다.
(1) 클라우드 컴퓨팅 플랫폼 GEE와 기계학습 자동화 최적화 모형인 AutoML을 활용하였을 때 장기간의 위성영상과 다양한 공간자료를 쉽게 구축하고 이에 대한 처리가 가능하였으며, 짧은 시간 내 효율적으로 최적 기계학습 산정 및 학습이 가능하였다.
(2) 위성영상 기반 토양수분 산정을 위해 구축된 공간자료에서 토양수분 관측지점의 자료를 추출하여 변수중요도를 평가하였으며, 무강우일수, 정규화식생지수(NDVI), 위성 기반 강수량(GPM), 사토 비율, 지표면온도(LST), 경사, 점토 비율, 토양용적밀도 순으로 나타나 상위 9개의 중요도를 보이는 변수를 토양수분 산정모델의 입력변수로 선정하였다.
(3) 농촌진흥청 54개 토양수분 관측지점에 대해 AutoML을 활용하여 토양수분 산정모형의 학습을 수행하고 정확도를 평가했을 때, 15개 기계학습 기법 중 Tree 기반 결정 모델인 Random Forest Regressor가 가장 높은 성능을 보였다. 초매개변수를 추가적으로 보정 한 결과 높은 수준의 정확도를 가진 토양수분 모의가 가능하였다(R2: 0.72, RMSE: 2.70 vol.%, MAPE: 0.14).
(4) 모의된 토양수분의 유효성 검증을 위해 기상학적 가뭄지수 표준강수지수(SPI)와의 시간 척도별(1개월, 2개월 및 3개월) 비교검증을 수행하였다. SPI와의 비교를 위해 표준토양수분지수(SSMI)를 산정하여 동일한 척도에서 비교하였으며, 시간척도의 증가에 따라 SPI와 SSMI의 상관성이 감소하는 것을 확인하였다. 공간적 분포의 비교를 위해 가뭄이 극심했던 2015년의 SPI와 SSMI의 공간분포를 비교 분석하였으며, 연간으로 보았을 때 두 가뭄지수 간의 유사성을 확인하였다.
상기 작성된 결과에서 볼 수 있듯, GEE와 AutoML을 동시에 활용하였을 때 단시간에 정확도 높은 토양수분 모의가 가능함과 동시에 그 활용성을 확인할 수 있었다. 본 연구의 방법론과 결과를 활용하여 연구자들이 연구성과를 가시화 및 공유할 수 있을 것이며, 토양수분 모니터링 시스템의 개발 및 최적화를 통해 수문 모델링, 기후변화 모니터링 등 다양한 분야에 실질적인 기여가 이루어질 것으로 기대된다. 추가적으로, 토양수분 산정모형의 개발 시 입력자료로써 식생과 더불어 증발산량 자료를 이용하여 보다 높은 정확도를 기대할 수 있을 것으로 판단되며, 광학 위성의 경우 구름에 의한 오염에 의해 부정확한 모의가 이루어졌을 가능성을 배제할 수 없어 추가적인 전처리기법의 적용, 또는 다른 형식의 위성(레이더 및 복사계)을 고려한 모형의 개발이 필요할 것으로 사료된다.