Prediction of total organic carbon using multi-model ensemble based on satellite imagery in estuarine reservoir

Jinuk Kim; Wonjin Jang; Jin hwi Kim; Yong-Gu Lee; Jaeki Shin; Yongeun Park; Seongjoon Kim

doi:10.3741/JKWRA.2025.58.4.345

Preview

Research Article

Journal of Korea Water Resources Association. 30 April 2025. 345-358
https://doi.org/10.3741/JKWRA.2025.58.4.345

Prediction of total organic carbon using multi-model ensemble based on satellite imagery in estuarine reservoir

담수호의 위성영상 기반 Multi-model Ensemble을 통한 TOC 예측

Jinuk Kim^a

Wonjin Jang^b

Jin hwi Kim^c

Yong-Gu Lee^d

Jaeki Shin^e

Yongeun Park^f

Seongjoon Kim^g^*

김 진욱^a

장 원진^b

김 진휘^c

이 용구^d

신 재기^e

박 용은^f

김 성준^g^*

^aPh.D. Student, Department of Civil, Environmental and Plant Engineering, Konkuk University, Seoul, Korea

^bPh.D. Student, Department of Civil, Environmental and Plant Engineering, Konkuk University, Seoul, Korea

^cResearcher, Future and Fusion Lab of Architectural, Civil and Environmental Engineering, Korea University, Seoul, Korea

^dResearcher Professor, Environmental Engineering, Kangwon National University, Chuncheon, Korea

^eCSO President, Limnoecological Science Research Institute Korea, THE HANGANG, Miryang, Korea

^fProfessor, School of Civil and Environmental Engineering, College of Engineering, Konkuk University, Seoul, Korea

^gProfessor, School of Civil and Environmental Engineering, College of Engineering, Konkuk University, Seoul, Korea

^a건국대학교 일반대학원 사회환경플랜트공학과 석박사통합과정

^b건국대학교 일반대학원 사회환경플랜트공학과 석박사통합과정

^c고려대학교 미래건설환경융합연구소 박사후연구원

^d강원대학교 환경공학과 연구교수

^e수생태원 한강 원장

^f건국대학교 공과대학 사회환경공학부 교수

^g건국대학교 공과대학 사회환경공학부 교수

^{*Corresponding Author}

License (open-access, https://creativecommons.org/licenses/by/4.0):

©It is identical to the Creative Commons Attribution Non-commercial License (https://creativecommons.org/licenses/by/4.0)

ABSTRACT

This study aimed to indirectly estimate Total Organic Carbon (TOC) in the Namyang Reservoir using a combination of satellite remote sensing and a machine learning-based Multi-Ensemble model. Sentinel-2A/B satellite data were used to construct reflectance datasets for the study area, and the HSIC-Lasso model identified 10 significant input variables (B4/B3, B4/B5, B2/B3, B8/B7, B4/B2, B1/B3, B1/B5, B8/B6, B5/B2, B2/B5) highly correlated with TOC. To predict TOC, a Stacking Ensemble model was developed using Support Vector Regression (SVR), Random Forest Regression (RFR), eXtreme Gradient Boosting (XGB), and Multi-Layer Perceptron (MLP) as base models, combined with six metamodels, including Partial Least Squares (PLS) and Ridge Regression (RID). The Stacking model achieved the highest predictive performance with R² values of 0.963(train) and 0.886(test), and MAE and RMSE values of 0.697 mg/L and 1.556 mg/L, respectively, outperforming individual machine learning models. This study integrates satellite data and machine learning models to establish a cost-effective and sustainable framework for monitoring TOC. The accumulation of long-term TOC data is expected to enhance its applicability as a practical tool for water quality management and policy development.

Keywords

Total Organic Carbon

Remote sensing

Machine learning

Stacking model

HSIC-Lasso

본 연구는 위성 원격탐사와 머신러닝 기반 Multi-Ensemble 모델의 일종인 Stacking 모형을 결합하여 남양호에서 총유기탄소(Total Organic Carbon, TOC)를 간접적으로 추정하는 것을 목표로 하였다. Sentinel-2A/B 위성 데이터를 활용하여 연구 지역의 반사도 데이터를 구축하였으며, HSIC-Lasso 모델을 통해 TOC와 높은 상관성을 가지는 10개의 주요 입력변수(B4/B3, B4/B5, B2/B3, B8/B7, B4/B2, B1/B3, B1/B5, B8/B6, B5/B2, B2/B5)를 도출하였다. TOC를 예측하기 위해 Support Vector Regression (SVR), Random Forest Regression (RFR), eXtreme Gradient Boosting (XGB), Multi-Layer Perceptron (MLP)을 베이스모델로 사용하고, Partial Least Squares (PLS) 및 Ridge Regression (RID)를 포함한 6개의 메타모델을 결합한 Stacking Ensemble 모델을 개발하였다. Stacking 모델은 훈련 데이터와 테스트 데이터에서 각각 R² 값 0.963과 0.886, MAE 값 0.697 mg/L, RMSE 값 1.556 mg/L의 값을 보였으며, 단일 머신러닝 모델의 예측 성능보다 개선됨을 보여주었다. 본 연구 결과는 위성 데이터와 머신러닝 모델을 통합하여 TOC를 비용 효율적이고 지속 가능한 방식으로 모니터링할 수 있는 기반을 제시하며, 추후 장기간의 TOC 데이터 축적을 통해 수질 관리 및 정책 개발을 위한 실용적인 도구로 활용될 수 있을 것으로 기대된다.

키워드

총유기탄소

위성영상

머신러닝

Stacking 모형

HSIC-Lasso

MAIN

1. 서 론
2. 재료 및 방법
2.1 대상유역
2.2 분석방법
2.3 Multi-model Ensemble 모델 개발
3. 결과 및 고찰
3.1 입력자료 구축 결과 및 HSIC-Lasso 모형에 의한 입력변수 추출
3.2 알고리즘 결과
3.3 공간분포 결과
4. 요약 및 결론

1. 서 론

담수호는 간척지 내 수자원 개발과 토지이용률의 증대를 위해 인공적으로 조성된 저수지를 말하며, 유역의 하류라는 지리적 특성으로 모든 오염물질이 재유입되는 특성이 있어 환경오염이 발생하기 쉬운 조건을 가지고 있다(Kim et al., 2002). 특히 최근에는 유역 토지에서 유출되는 비점오염, 생활오염원 및 축산오염원의 증가로 인해 난분해성 유기물질 유입이 증가하고 있다(Jung et al., 2021). 환경부에서는 다양한 오염원과 비점오염원으로부터 유입되는 난분해성 유기물질을 반영하기 위해 2013년부터 총유기탄소(Total Organic Carbon, TOC)를 호소의 수질 및 수생태계 환경기준의 수질지표 항목으로 도입하여 관리하고 있다(Jeong et al., 2018). 물에 포함된 유기탄소의 총량을 나타내는 TOC는 수질오염을 나타내는 정량 지표 중 하나이며, 외부에서 유입된 유기물뿐만 아니라 호소 내부의 생물 활동 및 유기물 분해 과정을 통해 형성되기 때문에, 호소의 생태학적 상태 및 오염원 관리의 중요한 지표가 된다(Kim et al., 2007; Kim and Lee, 2019). 따라서 TOC 모니터링은 호소의 생태적 상태를 이해하고 관리하기 위해 필수적이다.

최근에는 원격감지 기술을 통해 수질 매개변수를 효율적으로 모니터링하는 연구가 활발히 진행되고 있다. 광학적 활성 성분(Optical Active Components, OAC)에 해당하는 물질에는 Chlorophyll-a, 유색용존유기물질(Colored Dissolved Organic Matter, CDOM), 총부유물질(Total Suspended Solids, TSS) 등이 포함되며 이러한 물질들은 물속에서 빛을 흡수하거나 산란하는 수중 성분을 말한다(IOCCG, 2018). 위성영상을 활용해 단일 OAC 성분을 추정하는 연구가 많이 진행된 바 있다. Shin et al. (2020)은 Landsat-8을 활용하여 대청호, 용담호, 옥정호에 대한 Chlorophyll-a를 산정하여 평가한 바 있으며, Park et al. (2018)은 Sentinel-2와 RapidEye 위성을 통해 4대강 유역에 설치된 보 부근을 분석 대상으로 하여 Chlorophyll-a를 산정하였으며 5mg/m³ 내외의 차이를 확인한 바 있다. non-OAC에 해당하는 TOC의 경우 OAC 물질을 활용하여 간접 추정할 수 있다. Chang et al. (2014)는 Landsat 이미지와 MODIS 이미지를 활용하여 CDOM 기반 용존성유기탄소(Dissolved Organic Carbon, DOC)과 Chlorophyll-a 기반 입자성유기탄소(Particulate Organic Carbon, POC)을 활용하여 IDFM (Integrated data fusion and mining) 기법을 통한 TOC 예측을 진행하였으며, 검증에서 0.8745의 R²으로 높은 정확도를 보인 바 있다. Kutser et al. (2015)는 MERIS 위성에서 생산되는 CDOM 흡수계수, Chl-a, TSS 및 탁도 등의 프로세서를 활용하여 DOC 및 TOC에 대한 R²를 각각 0.71, 0.74의 정확도로 산정한 바 있으나 아직 국내를 대상으로 한 연구는 미비한 실정이다.

원격감지를 통해 수질매개변수를 추정하는 방법은 경험적 방법과 반분석적 방법 등을 통해 추정되며, 최근 머신러닝에 기반한 방법으로 높은 정확도로 수질매개변수를 추정하는 문헌이 제시되고 있다. 머신러닝 기법은 환경변수 간 복잡한 비선형 관계를 정확하게 평가하고 해결할 수 있어 Extreme Gradient Boosting (XGB), Support Vector Regression (SVR), Artificial Neural Network (ANN) 등 다양한 머신러닝 기법을 통해 수질 변수 평가에 적용되었다(Tian et al., 2024). 머신러닝은 수질오염을 예측하는데 상당한 이점을 제공하지만, 개별 머신러닝 모델의 사용은 일반적으로 과적합 되는 경향을 보인다(Satish et al., 2024). 이러한 문제를 해결하기 위해 다중모델 앙상블(Multi-model ensemble) 기법을 통해 두 개 이상 모델의 장점을 결합하여 예측 성능을 최적화하고자 하는 연구가 진행되고 있다(Ahmed et al., 2020; Kim et al., 2022). Panahi et al. (2022)는 SVM 모델과 결합한 앙상블 Bagging 기술을 기반으로 한 데이터 전처리 방법을 통해 하천 유량과 수질을 예측하였으며, Chen et al. (2020)은 중국의 주요 강, 호수에 대해 7개 머신러닝 모델과 3개의 앙상블 모델을 활용하여 수질 예측 능력을 비교하여 앙상블 모델의 유효성을 입증한 바 있다. 또한, Kim et al. (2022)는 남한지역 1.5 km 공간해상도의 시간별 오존 농도를 산출하기 위해 Stacking 앙상블 모델을 개발하였으며, 전반적인 모델 성능향상 결과를 확인하였으나 TOC를 예측하기 위한 앙상블 모델의 개발 연구는 부족하다.

따라서 본 연구에서는 담수호 모니터링을 위해 위성영상을 활용하여 TOC를 간접 추정할 수 있는 반사도를 확인하고, 머신러닝 기반 Multi-model Ensemble을 통해 담수호 TOC를 산정하여 평가하고자 한다.

2. 재료 및 방법

2.1 대상유역

본 연구의 대상유역은 서해 중부지역 경기도 화성시에 위치한 인공 담수호인 남양호 상류 유역이다(Fig. 1). 남양호는 유역크기가 209 km², 하천 폭은 900 m, 수혜면적은 3,449 ha, 유효저수량은 20,407×10³m³이다. 남양호는 유역의 28.3%가 논이며, 12.2%가 밭으로 농업지역이 차지하는 비율이 큰 유역이다(Kim et al., 2021). Kim et al. (2021)에서 조사된 남양호의 5년(2018~2022) 평균 TOC 농도는 6.5 mg/L로 이는 환경정책기본법 제2조 호소생활수질환경 기준 중 TOC를 기준으로 구분한 수질 등급에서 5등급에 해당하는 농도로 남양호의 수질이 열악한 상태로 나타났다. 이에 따라 2022년에 경기도에서 지정한 중점 관리 저수지 수질개선 대책 수립에 해당하는 저수지로 선정된 바 있다.

2.2 분석방법

2.2.1 위성자료

Sentinel-2는 유럽우주국(European Space Agency, ESA)의 GMES (Global Monitoring for Environment and Security) program으로 발사된 MSI (MultiSpectral Instrument)를 탑재한 위성군이다. Sentinel-2는 가시광선, 근적외선, 및 단파적외선 범위를 13개 대역에서 관측하며, 공간해상도는 밴드별로 10, 20, 60 m의 고해상도를 290 km의 광역 영상으로 제공한다. Sentinel-2는 2015년 6월에 발사된 2A와 2017년 3월에 발사된 2B의 쌍둥이 위성이 각각 10일 주기로 지구를 관측해 5일 간격의 높은 재방문 주기를 가지고 있어 지속적인 수질 모니터링이 가능하다.

Sentinel-2 위성군의 자료는 ESA Copernicus Open Access Hub (https://scihub.copernicus.eu/)에서 Level-1C TOA (Top- of-Atmosphere)과 Sentinel Application Platform (SNAP v 6.0)의 Sen2Cor 프로세서를 사용하여 방사, 기하 및 대기보정이 진행된 Level-2 BOA (Bottom-of-Atmosphere) 반사율 자료를 제공한다. Level-1C의 대기보정은 같은 영상에서 얻어진 에어로졸 광학두께(Aerosol Optical Depth, AOD)와 대기 중 수증기(Water Vapor, WV)를 이용하여 보정된다(Chung et al., 2023). Sentinel-2 Level-2 영상과 같이 제공하는 SLC (Scene Classification Map) 영상은 각 pixel을 물, 그림자, 권운, 구름 및 눈 등의 클래스로 분류하며(Raiyani et al., 2021), 이 중 물 pixel에 해당하는 point 값만 추출하여 활용하였다. 모든 영상은 Band2, Band3, 및 Band4에서 제공되는 공간해상도 10m에 맞춰 resampling 하였으며, 각 point의 3×3 pixel 창으로 평균하여 반사도 값을 추출하였다.

본 연구에서는 2021년 5월 12일부터 2023년 4월 27일까지의 기간 중 Senitnel-2A/B 위성이 연구지역을 통과하는 날짜에 맞춰 총 37회 샘플링을 진행하였다. 남양호 전반에 걸친 수질을 파악하기 위해 샘플링 총 기간 중 9번의 샘플링(2021; 6/21, 7/21, 7/26, 8/20, 10/19, 2022; 10/19, 11/08, 11/23, 2023; 4/27)은 배를 이용하여 남양호 전역에 대한 20개의 수질 샘플링을 수행하였으며, 그 외 일자는 남양대교(PD1), 장안대교(PD2), 남양호교(PD3)에서 3개의 수질 샘플링을 진행하였다. 20개의 샘플은 표층에서 채수되었으며, 대교에서 샘플링을 진행할 때는 반사도 값의 왜곡을 최소화하기 위해 하천 중앙부에서 샘플을 채취하였다(USGS, 2023). Fig. 1(b)와 같이 총 샘플링 기간(37회) 동안 샘플링된 point 데이터는 264개이며 이 중 SLC 분류에서 구름 및 기타 간섭 요소로 분류된 44개의 데이터를 제거하고 총 220개의 데이터를 분석에 활용하였다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-04/N0200580405/images/kwra_58_04_05_F1.jpg

Fig. 1.

Study area, monitoring date and point

2.2.2 수질자료

수질자료 중 Chlorophyll-a, CDOM, TSS, 및 TOC는 실험을 통해 측정되었다. Chlorophyll-a는 Carry 5000 UV-vis-NIR Spectrophotometer에서 흡광도를 측정하고 고유 흡광특성을 이용한 식으로 산정하였으며 TOC는 총유기탄소 분석기(TOC-VCPH, Shimadzu, Kyoto, Japan)을 활용하여 측정하였다. TOC 분석을 위해 물샘플은 0.7 µm의 유리 섬유 필터(GF/F; Whatman, Clifton, NJ, USA)로 여과하여 4°C로 보관 후 측정하였다. CDOM은 0.2 µm Nuclepore^TM polycarbonate 멤브레인 필터(Whatman, Buckinghamshire, UK)로 여과 후 분광광도계(UV-1280, Shimadzu, Kyoto, Japan)를 사용하여 용존유기물의 흡광도(350-800 nm)를 측정하였으며, 기준파장 355 nm에서의 흡수계수인 $a_{C D O M} (355)$ 를 산정하였다.

2.3 Multi-model Ensemble 모델 개발

2.3.1 입력자료 구축 및 선별

Multi-model Ensemble 모델 구축을 위해 측정된 수질 인자 중 OAC 성분을 가진 매개변수와 TOC 간 상관성을 분석하였다. 상관성이 가장 높은 OAC 성분을 대상으로 TOC를 예측하기 위해 Sentinel-2A/B의 Band1~Band12까지 파장 중 가시광선부터 근적외선 범위에 해당하는 Band1~Band8 파장을 활용하여 총 56개의 밴드비를 입력자료로 구축하였다. 모든 밴드비를 고려할 경우 적은 양의 데이터에서는 오히려 모델 성능을 감소시킬 수 있으며, Band selection을 통해 상관성이 높다고 판단되는 밴드비를 추출하여 알고리즘의 정확도를 개선하고자 하였다(Sun and Du, 2019).

Band selection 기법에는 HSIC-Lasso (Hibert-Schmidt Independence Criterion-Lasso) 모형이 적용되었다(Yamada et al., 2014). HSIC-Lasso 모형은 비선형 종속성이 있는 데이터에서 중요한 변수를 선택하는데 효과적인 모형으로, Frobenius 노름 기반의 회귀 계수 추정을 포함한다(Eq. (1)).

(1)

\min_{α \in ℝ^{p}} \frac{1}{2} {||L - \sum_{k = 1}^{p} α_{k} K^{(k)}||}_{F r o b}^{2} + λ {||α||}_{1} (α_{1}, . . ., α_{p} \geq 0)

여기서, $∥ ∙ ∥_{F r o b}$ 는 Frobenius 표준으로 행렬의 각 원소의 제곱합의 제곱근을 나타내며, 이는 중심화 Gram 행렬을 통해 입력변수 $K^{(k)}$ 와 출력변수 $L$ 의 커널함수로 정의한다. 또한, 𝛼는 회귀 계수 벡터, 𝜆는 정규화 매개변수를 나타낸다. HSIC- Lasso 모형은 Ren et al. (2018)에서 월별 유량을 예측하기 위한 입력변수 선별에 사용되었으며, Amri and Marrel (2021)는 입력변수의 민감도 분석을 위해 최적화 HSIC-Lasso 모형을 활용하여 수행하였다. 본 연구에서는 각 위성영상의 밴드비와 TOC 간 상관성을 도출하고 입력변수를 선별하기 위해 HSIC-Lasso 모형을 활용하였다.

2.3.2 Machine Learning

각 밴드 별 입력변수가 결정되면 기존에 많이 사용되었던 머신러닝 모델을 구축하여 TOC를 예측하는 알고리즘을 구축하였다. 머신러닝에 선정된 모델은 Support Vector Machine (SVR), Random Forest (RFR), eXtreme Gradient Boost (XGB), Multi Layer Perceptron (MLP)를 활용하였다. SVR은 Vapnik et al. (1996)에 의해 개발된 모델로 데이터를 분리할 수 있는 최적의 결정 경계를 결정하는 알고리즘이다. 회귀문제에 적용될 경우 가우시안 커널과 같은 비선형 커널을 사용하여 예측값과 관측값의 오차가 최소화되는 초평면을 찾는 방식으로 적용된다. RFR은 Breiman (2001)에 의해 개발된 모델로 여러 개의 bootstrap 샘플을 추출하여 의사결정 트리 모델링을 한 후 여러 의사결정 트리를 병합하여 예측을 수행하고, 최종적으로 투표를 통해 예측 결과를 도출하는 모형이다. XGB는 Chen and Guestrin (2016)에 의해 개발된 모형으로 기울기 부스팅 기법을 적용하여 예측 정확도를 높인다. MLP는 Rumelhart et al. (1986)에 의해 제안된 모델로, 다층의 은닉층을 통해 비선형 관계를 학습하며, 특히 복잡한 패턴 인식과 예측 문제에 효과적이다. MLP는 역전파 알고리즘을 활용하여 학습하며, 다양한 회귀 및 분류 문제에서 좋은 성능을 보이는 모델로 평가된다.

2.3.3 Multi-model Ensemble

본 연구에서는 과적합을 줄이고 모델의 안정성을 높이기 위해 Multi-model Ensemble의 일종인 Stacking 모형을 활용하여 TOC를 예측하였다(Wolpert, 1992). Stacking 모델은 훈련 데이터가 첫 번째 계층(Base Model)에서 처리된 후, 해당 예측값이 두 번째 계층(Meta Model)의 입력으로 사용되는 앙상블 모델로, 단일 모델보다 높은 정확도를 입증하고 있어 다양한 환경 분야에서 활용되고 있다(Zhai and Chen, 2018; Cho et al., 2020). 본 연구에서 적용한 Stacking 모델의 흐름은 Fig. 2에 나타나 있다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-04/N0200580405/images/kwra_58_04_05_F2.jpg

Fig. 2.

Process flow of TOC prediction through stacking ensemble model

먼저, HSIC-Lasso 모형을 이용하여 도출된 밴드 비율을 Stacking 모델의 입력변수로 설정한 후, 전체 데이터를 75%의 훈련 데이터(train)와 25%의 테스트 데이터(test)로 분리하였다. 훈련 데이터에 대해서는 4-fold 교차검증을 수행하였으며, 베이스모델(Base Model)로는 Support Vector Regression (SVR), Random Forest Regression (RFR), eXtreme Gradient Boosting (XGB), Multi-Layer Perceptron (MLP)을 사용하였다.

각 베이스모델은 개별적으로 TOC를 예측하며, 생성된 예측값들은 새로운 입력변수로 활용되어 메타모델(Meta Model)로 전달된다. 메타모델은 개별 베이스 모델의 결과를 종합하여 최종 TOC 값을 산출하는 역할을 수행한다. Kim et al. (2024) 등에서는 메타모델을 모델의 편향성을 줄이기 위해 선형 기반 모델인 Partial Least Square Regression (PLS) 혹은 Ridge Regression (RID)를 활용하였으며, Kwak et al. (2023) 등에서는 Nonlinear Regression analysis (NR), Artificial Neural Network (ANN), Gaussian Process Regression (GPR), SVM을 베이스모델로, ANN을 메타모델로 활용하여 예측 성능을 향상시켰다. 본 연구에서는 다양한 메타모델을 적용했을 때의 결과를 비교하기 위해 6개(PLS, RID, SVR, RFR, XGB, MLP)의 알고리즘을 사용하였다. Level-1에서 베이스모델이 되는 SVR, RFR, XGB, 및 MLP의 단일 모델과 Level- 1 결과를 입력변수로 하여 예측하는 메타모델의 하이퍼파라미터 튜닝은 Random Search를 이용하여 최적화하였다. test 데이터는 Stacking 모델의 훈련 과정에 참여하지 않고 Level- 2의 최종 메타모델을 선정하기 위한 TOC 예측 결과를 평가하는데 사용되어 모델의 성능을 객관적으로 검증하고 과적합을 방지하였다.

2.3.4 모델 성능평가

각 밴드비와 수질 매개변수에 대한 모델 성능은 결정계수(Coefficient of determination, R²), 평균제곱근오차(Root Mean Sqaure error, RMSE) 및 상대 평균 제곱근 오차(Relative RMSE, RRMSE)를 통해 평가하였다(Eqs. (2), (3), (4)).

(2)

R^{2} = {(\frac{\sum_{i = 1}^{n} (O_{i} - \bar{O}) (E_{i} - \bar{E})}{\sqrt{\sum_{i = 1}^{n} {(O_{i} - \bar{O})}^{2}} \sqrt{\sum_{i = 1}^{n} {(E_{i} - \bar{E})}^{2}}})}^{2}

(3)

R M S E = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(O_{i} - E_{i})}^{2}}

(4)

R R M S E = \sqrt{\frac{\frac{1}{n} \sum_{i = 1}^{n} {(O_{i} - E_{i})}^{2}}{\sum_{i = 1}^{n} {(E_{i})}^{2}}}

여기서, $O_{i}$ 는 관측값, $\bar{O_{i}}$ 는 관측값의 평균, $E_{i}$ 는 추정값, $\bar{E_{i}}$ 는 추정값의 평균이다. 0~1 범위의 값을 가지는 R²는 1에 가까울수록 모델의 결과가 관측값을 잘 모의하는 것을 의미한다. 또한 RMSE 및 RRMSE는 머신러닝의 모델 정확도를 측정할 때 사용되는 지표로 0에 가까울수록 오차가 적어 모델의 정확도가 높음을 의미한다.

3. 결과 및 고찰

3.1 입력자료 구축 결과 및 HSIC-Lasso 모형에 의한 입력변수 추출

남양호 대상 샘플링 일자별 Chlorophyll-a, CDOM, TSS, 및 TOC의 농도는 Table 1과 같다. Sentinel-2A/B 영상을 확인하여 구름이 없는 point를 추출하고, 해당 point 시료의 평균 및 표준편차를 표시하였다. 전체 조사 기간동안 측정된 TOC의 평균 값은 6.76 mg/L로 나타났으며 최소와 최대 값이 각각 2.56 mg/L, 32.83 mg/L로 변동이 큰 것으로 나타났다. 특히 2022년 2월에 약 4.54~4.87 mg/L에서 6월 장마기 전까지 5.49~9.37 mg/L로 지속해서 상승하는 경향을 보였다. 한편, Chlorophyll-a는 평균이 64.22 mg/m³, 표준편차가 57.09 mg/ m³으로 수질 인자 중 가장 큰 변동성을 보였고 Chlorophyll-a의 농도가 높게 나타났던 2022년 6월 및 11월에서 TOC 농도도 마찬가지로 8.7~15.7 mg/L로 높게 나타났다. TSS는 평균이 18.39 mg/L, CDOM은 평균이 4.28 m^-1으로 나타났으며, 2022년 5월 12일~9월 29일까지 농번기에 TOC와의 경향이 비슷하게 나타났다. 그러나 TOC의 농도가 11.72 mg/L, 15.71 mg/L로 가장 높은 2022년 11월의 경우 TSS 및 CDOM의 농도는 각각 15.14 mg/L, 16.00 mg/L와 3.06 m^-1, 3.38 m^-1로 상대적으로 낮게 나타났다. 이는 TOC의 농도가 계절적 요인, 특히 농번기 및 장마기의 영향을 받을 수 있으며 외부 유기물 공급원, 조류 활동 및 강우로 인한 퇴적물 유입과 침강으로 인한 복합적인 요인에 의해 변화되기 때문으로 판단된다(Lee and Kam, 2024). Table 2는 계절별로 TOC와 주요 수질인자(Chlorophyll-a, a355, TSS) 간의 상관관계를 나타낸다. Chlorophyll- a는 봄과 겨울철에 각각 0.442, 0.481로 상대적으로 높은 상관성을 보였으며, a355는 겨을철을 제외한 모든 계절에서 높은 상관관계를 나타냈다. TSS는 봄과 겨울철에 상관성이 각각 0.447, 0.767로 높았다. 이러한 결과는 동일지역 수질인자간 상관관계를 확인한 Jang et al. (2024)의 연구 결과와 유사한 경향을 보인다.

Table 1.

Descriptive statistics of water quality in the Namyang Reservoir. (Chl-a: Chlorophyll-a, TSS: Total Suspended Solid, a355: $a_{C D O M} (355 n m)$ , TOC: Total Organic Carbon).

Date (number)	Chl-a (mg/m³)	TSS (mg/L)	a355 (m^-1)	TOC (mg/L)	Date (number)	Chl-a (mg/m³)	TSS (mg/L)	a355 (m^-1)	TOC (mg/L)
12-May-21 (n: 2)	20.14 (±3.37)	21.00 (±10.47)	3.26 (±0.11)	6.19 (±0.68)	12-Jan-22 (n: 1)	20.63 (±17.86)	12.13 (±6.00)	3.63 (±0.21)	4.71 (±0.21)
22-May-21 (n: 3)	8.68 (±2.21)	20.17 (±22.95)	3.31 (±0.41)	6.58 (±0.67)	27-Jan-22 (n: 3)	44.79 (±51.80)	10.13 (±5.22)	3.45 (±0.69)	4.95 (±0.30)
16-Jun-21 (n: 1)	20.58	14.40	3.66	5.38	11-Feb-22 (n: 3)	25.80 (±9.44)	10.13 (±5.00)	3.07 (±0.42)	4.54 (±0.34)
21-Jun-21 (n: 17)	39.40 (±21.68)	12.44 (±4.80)	3.80 (±0.48)	5.75 (±0.12)	21-Feb-22 (n: 1)	49.65	15.20	2.82	4.87
16-Jul-21 (n: 2)	72.90 (±67.03)	16.85 (±14.78)	5.89 (±1.80)	5.97 (±0.25)	08-Mar-22 (n: 3)	38.70 (±23.93)	14.67 (±4.05)	8.55 (±0.52)	5.49 (±0.36)
21-Jul-21 (n: 20)	88.02 (±55.38)	21.41 (±13.52)	5.31 (±0.61)	3.34 (±0.51)	17-May-22 (n: 3)	76.03 (±11.01)	57.27 (±15.61)	6.49 (±3.71)	7.38 (±2.83)
26-Jul-21 (n: 20)	47.19 (±34.13)	12.44 (±9.48)	5.09 (±0.99)	5.29 (±0.40)	01-Jun-22 (n: 2)	47.34 (±11.97)	22.67 (±13.72)	6.08 (±1.18)	7.10 (±0.84)
31-Jul-21 (n: 3)	52.12 (±13.16)	10.80 (±3.60)	5.54 (±1.34)	6.56 (±0.42)	16-Jun-22 (n: 3)	120.75 (±109.59)	22.00 (±11.45)	7.06 (±1.53)	9.37 (±1.94)
15-Aug-21 (n: 2)	86.01 (±52.26)	17.87 (±11.98)	5.04 (±0.53)	6.28 (±0.43)	21-Jun-22 (n: 3)	139.03 (±105.23)	20.80 (±11.54)	6.60 (±1.21)	8.73 (±0.96)
20-Aug-21 (n: 11)	63.34 (±20.91)	18.33 (±4.99)	4.23 (±0.74)	4.74 (±0.39)	26-Jul-22 (n: 3)	137.47 (±110.15)	27.73 (±13.23)	4.49 (±0.68)	4.25 (±0.71)
09-Sep-21 (n: 4)	60.47 (±40.87)	27.80 (±4.48)	4.84 (±0.33)	3.62 (±0.25)	19-Sep-22 (n: 2)	43.12 (±20.11)	19.00 (±9.33)	4.33 (±0.96)	3.88 (±1.41)
24-Sep-21 (n: 2)	44.90 (±8.57)	31.33 (±18.41)	5.77 (±1.73)	4.50 (±0.12)	29-Sep-22 (n: 3)	46.53 (±47.49)	15.33 (±10.29)	4.07 (±0.40)	3.85 (±0.83)
14-Oct-21 (n: 2)	61.01 (±18.90)	25.60 (±19.98)	4.10 (±0.14)	4.35 (±0.23)	19-Oct-22 (n: 18)	54.28 (±36.14)	18.62 (±6.71)	3.24 (±0.62)	7.65 (±1.85)
19-Oct-21 (n: 15)	73.92 (±40.41)	24.43 (±14.28)	3.61 (±0.30)	4.64 (±0.33)	24-Oct-22 (n: 1)	67.12 (±54.42)	19.20 (±11.89)	3.52 (±0.70)	4.09 (±0.29)
24-Oct-21 (n: 3)	55.27 (±12.82)	18.67 (±4.24)	3.71 (±0.14)	4.47 (±0.29)	08-Nov-22 (n: 20)	105.85 (±76.26)	15.14 (±6.88)	3.06 (±0.53)	11.72 (±4.62)
29-Oct-21 (n: 3)	44.73 (±11.02)	16.27 (±8.43)	3.66 (±0.17)	4.53 (±0.19)	23-Nov-22 (n: 20)	80.07 (±62.03)	16.00 (±8.78)	3.38 (±0.53)	15.71 (±8.83)
13-Nov-21 (n: 1)	27.59 (±23.03)	26.53 (±16.56)	7.36 (±3.67)	4.43 (±0.47)	02-Apr-23 (n: 1)	31.97 (±48.79)	12.00 (±11.84)	4.16 (±2.18)	7.53 (±1.78)
18-Nov-21 (n: 2)	41.61 (±25.27)	22.68 (±3.79)	6.97 (±0.09)	5.03 (±0.52)	27-Apr-23 (n: 20)	43.88 (±41.05)	14.14 (±6.04)	3.89 (±0.58)	6.70 (±0.42)
03-Dec-21 (n: 1)	28.86 (±16.56)	34.27 (±15.40)	4.83 (±0.74)	4.40 (±0.34)	Total	64.22 (±57.09)	18.39 (±11.79)	4.28 (±1.41)	6.82 (±4.45)

Table 2.

Correlation analysis between TOC and other water quality parameters

Season	Chlorophyll-a (mg/m³)	$a_{C D O M} (355 n m)$	TSS (mg/L)
Spring (3~5)	0.442^* (p<0.01)	0.441^* (p<0.01)	0.447^* (p<0.01)
Summer (6~8)	0.167 (p=0.13)	0.379^* (p<0.01)	0.042 (p=0.71)
Autumn (9~11)	0.041 (p=0.69)	0.337^* (p<0.01)	0.187 (p=0.07)
Winter (12~2)	0.481^* (p<0.01)	0.075 (p=0.85)	0.767^* (p<0.01)

*indicates statistically significant correlation at p < 0.01

연구 대상 지역인 남양호에 대해 2021년 5월 12일부터 2023년 4월 27일까지의 Sentinel-2A/B 자료를 취합한 후 QC를 통해 추출된 point의 밴드값을 산정하였으며, Fig. 3과 같이 나타냈다. 각 밴드 별 비율 및 TOC 자료를 구축하여 HSIC- Lasso 모형을 통해 입력변수를 선별하였다. HSIC-Lasso 모형은 반사도와 TOC간 비선형 독립성을 고려하여 예측을 위한 그룹을 설정하며, 입력변수를 선별한 결과 B4/B3, B4/B5, B2/B3, B8/B7, B4/B2, B1/B3, B1/B5, B8/B6, B5/B2, B2/B5로 총 10개의 입력변수가 선별되었다. 선별된 밴드의 정량적 기준을 확인하기 위해 Fig. 4와 같이 모든 밴드비율과 TOC간 상관성을 정리하였으며 추가적으로 조사된 CDOM, Chlorophyll-a, 및 TSS와 상관성도 나타내었다. TOC와의 상관성이 낮게 나타나는 B4/B2, B5/B2와 B1/B5, B2/B5의 경우 CDOM과의 상관성이 매우 높게 나타나며 B4/B3은 CDOM, Chlorophyll-a, 및 TSS 모두 0.37, 0.41, 및 0.36으로 높게 나타났다. Bonelli et al. (2022)는 Chlorophyll-a, CDOM 및 TSS가 TOC 예측에서 상관성 있는 변수로 작용하였다고 보고하였다. Kahru and Mitchell (1998)는 Chlorophyll-a와 관련한 입력변수로 B1/B3, B2/B3를 사용한 바 있으며, 최근 Latwal et al. (2023) 연구에는 Sentinel-2 위성에서 중심파장 665 nm, 705 nm, 740 nm를 기반한 B4, B5, B6 중심의 2~3Band 알고리즘에 활용되었다. CDOM은 B4/B2, B4/B3, B5/B2 등과 상관성이 높으며 TSS 추정을 위해 B2, B3, B4, B6의 밴드가 고려된 바 있다(Shang et al., 2021; Jiang et al., 2023).

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-04/N0200580405/images/kwra_58_04_05_F3.jpg

Fig. 3.

Sentinel-2A/B reflectance taken in Namyang reservoir

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-04/N0200580405/images/kwra_58_04_05_F4.jpg

Fig. 4.

Heatmap of correlation between water quality parameters and reflectance (a) CDOM, (b) Chlorophyll-a, (c) TSS, (d) TOC

3.2 알고리즘 결과

Table 3은 앞서 HSIC-Lasso를 통해 선별된 10개의 입력변수를 이용하여 구축된 Stacking 모델의 train, test 성능 지표별 평균 및 best case에 대한 결과를 나타낸다. 메타모델별 Overall 성능 결과는 train에서 case별 R²가 최소 0.905에서 최대 0.976로 모두 높게 나타났으나 RMSE와 RRMSE에서는 SVR과 MLP의 성능이 각각 2.110 mg/L과 0.310, 1.916 mg/L와 0.282 mg/L로 다른 모형에 낮게 나타나며 표준편차 또한 0.687 mg/L와 0.102, 0.855 mg/L와 0.126 mg/L로 상대적으로 더 크게 나타났다. test의 overall 성능은 R², RMSE, 및 RRMSE가 PLS에서 각각 0.689, 2.507 mg/L, 및 0.365로 RFR에서 각각 0.680, 2.489 mg/L, 및 0.362로 가장 높게 나타나 TOC 예측에서 신뢰도가 높게 나타났다. Best case에서는 test R²는 MLP에서 0.970으로 가장 높게 나타났으나, RMSE와 RRMSE 성능이 각각 2.487 mg/L, 0.341로 낮게 나타났다. 반면 XGB의 test R²는 0.886으로 MLP보다는 낮으나 RMSE와 RRMSE에서 각각 1.556 mg/L, 0.241로 가장 낮게 나타났다. 선형 기반의 PLS 및 RID에서의 R²는 0.872, 0.856으로 나타났으며, RMSE와 RRMSE 또한 XGB, RFR보다 낮은 2.408 mg/L, 0.308, 2.327 mg/L, 0.314로 산정되었다. 이를 통해 Stacking 모델의 베이스모델뿐 아니라 메타모델에 대해서도 다양한 모델의 최적화를 같이 진행한다면 더 좋은 결과를 확인할 수 있을 것으로 판단된다.

Table 3.

Staking model average and best case result

method		R²		RMSE (mg/L)		RRMSE
method		Train	Test	Train	Test	Train	Test
Case1: Level-2 PLS	Overall	0.975 (±0.008)	0.689 (±0.108)	0.724 (±0.120)	2.507 (±0.506)	0.106 (±0.017)	0.365 (±0.060)
Case1: Level-2 PLS	Best case	0.964	0.872	0.726	2.408	0.112	0.308
Case2: Level-2 RID	Overall	0.975 (±0.005)	0.674 (±0.119)	0.852 (±0.231)	2.600 (±0.646)	0.125 (±0.034)	0.376 (±0.074)
Case2: Level-2 RID	Best case	0.964	0.856	0.816	2.327	0.123	0.314
Case3: Level-2 SVR	Overall	0.905 (±0.057)	0.616 (±0.101)	2.110 (±0.687)	3.247 (±0.705)	0.310 (±0.102)	0.476 (±0.095)
Case3: Level-2 SVR	Best case	0.927	0.834	2.171	3.171	0.329	0.423
Case4: Level-2 RFR	Overall	0.976 (±0.010)	0.680 (±0.114)	0.704 (±0.181)	2.489 (±0.456)	0.104 (±0.026)	0.362 (±0.056)
Case4: Level-2 RFR	Best case	0.976	0.881	0.641	2.109	0.096	0.293
Case5: Level-2 XGB	Overall	0.968 (±0.018)	0.640 (±0.125)	0.797 (±0.207)	2.611 (±0.563)	0.117 (±0.030)	0.381 (±0.065)
Case5: Level-2 XGB	Best case	0.963	0.886	1.000	1.556	0.144	0.241
Case6: Level-2 MLP	Overall	0.965 (±0.013)	0.681 (±0.115)	1.916 (±0.855)	3.175 (±0.786)	0.282 (±0.126)	0.460 (±0.102)
Case6: Level-2 MLP	Best case	0.962	0.907	1.597	2.487	0.240	0.341

Best case에 대한 실제 TOC 값과 예측 TOC에 대한 scatter plot으로 정리하였으며 train dataset의 결과를 파란 점으로, test dataset의 결과를 주황 점으로 하여 Fig. 5와 같이 나타내었다. MLP Best case에서의 Fig. 5(f)를 확인하면 고농도에서의 예측 정확도는 상대적으로 높으나, 저농도에서 상대적으로 TOC를 과대평가하며 RMSE 및 RRMSE가 높아진 것을 확인할 수 있다. 반면 XGB의 Fig. 5(e)에서는 고농도 및 저농도의 예측 정확도가 상대적으로 높은 것으로 나타났다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-04/N0200580405/images/kwra_58_04_05_F5.jpg

Fig. 5.

Best case train, test plots of stacking models by metamodel (PLS: Partial Least Squares, RID: Ridge regression, SVR: Support Vector Regression, RFR: Random Forest Regression, XGB: eXtreme Gradient Boosting, MLP: Multi-Layer perceptron

Stacking 모형의 결과가 기존 모델의 정확도보다 향상되었는지 검증하기 위해 가장 성능이 좋다고 판단되는 메타모델을 XGB로 하는 Stacking 모형과 Level-1 베이스모델의 RMSE 및 RRMSE 분포는 Fig. 6와 같이 나타났다. RMSE 및 RRMSE에서 Stacking 모형이 다른 모형에 비해 Train 중앙값이 각각 0.44, 1.67 및 0.77, 2.52로 가장 낮게 나타난 것을 알 수 있다. 이는 Stacking 모형이 다른 머신러닝 모델의 여러 단점을 상호보완해줄 수 있을 것으로 판단된다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-04/N0200580405/images/kwra_58_04_05_F6.jpg

Fig. 6.

Boxplot of train and test for base model (a) RMSE result, (b) RRMSE result

3.3 공간분포 결과

메타모델을 XGB로 선정하였으며 2021년 5월 12일부터 2023년 4월 27일까지 일별 강수량 및 최고기온과 함께 PD1(남양대교), PD2(장안대교), 및 PD3(남양호교)의 지점별 관측 TOC와 Stacking 모형에 따른 예측 TOC 값을 나타냈다(Fig. 7). 남양호 유역의 TOC는 강수량이 큰 장마기 전까지 지속적으로 상승하다가 비가 온 순간 감소하게 되며, 가을철부터 겨울철까지 지속적으로 상승하는 패턴을 가진 것으로 파악되었다. 이는 일반적으로 한국의 호수에서 봄철 플랑크톤 성장과 유기물 용출로 인해 TOC 농도가 증가하는 경향 및 9월 초 폭우 이후 유기물 농도가 증가하는 패턴과 일치하는 결과이다(Lee et al., 2014).

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-04/N0200580405/images/kwra_58_04_05_F7.jpg

Fig. 7.

Comparison of daily precipitation, maximum temperature, and point-by-point accuracy between observed and simulated TOC

관측된 TOC와 예측된 TOC를 비교하였을 때 2021년 6월을 중심으로 12월까지, 2022년 9월부터 11월까지 관측된 TOC와 예측된 TOC의 경향성이 비슷하게 나타나 Multi-model Ensemble을 통한 TOC 예측의 적절함을 확인할 수 있다. 그러나, Fig. 7에서 노랗게 표시된 2022년 4월~6월 기간에는 TOC 농도가 전반적으로 높은 것을 확인할 수 있다. 이를 바탕으로 가뭄 발생으로 인해 TOC 농도가 크게 나타난 2022년 5~7월을 중심으로 예측된 TOC 공간분포를 Fig. 8과 같이 표현하였을 때, 봄철 높은 값을 유지하다가, 7월 16일과 9월 19일에 낮은 TOC 농도 값을 나타냈으며 다시 서서히 높아지는 결과를 확인할 수 있다. 이는 Lee and Kam (2024)의 연구에서도 2021년부터 2022년까지 지속된 가뭄이 TOC 농도에 미친 영향을 PCA 분석을 통해 평가한 결과, 본 연구 지역이 속한 PC2에서 계절별 TOC 농도 평균이 3.35~5.25 mg/L로 나타났다. 특히, 2022년 4~6월 TOC 농도가 5.25 mg/L로 해당 범위에서 가장 높았으며, 이는 가뭄의 영향이 반영된 결과로 해석된다. 이러한 경향은 본 연구에서 2022년 6월 16일 TOC 농도가 9.30 mg/L까지 상승한 결과와도 부합한다.

https://cdn.apub.kr/journalsite/sites/kwra/2025-058-04/N0200580405/images/kwra_58_04_05_F8.jpg

Fig. 8.

TOC mapping in the Namyang reservoir basin from May 17 to November 8, 2022

또한 이 시기는 다른 시기보다 예측값의 편차가 상대적으로 크게 나타난 구간이며, 포인트와 예측치 및 공간분포 전체적인 경향과는 다소 상이하다. 특히, Fig. 8의 2022-06-21에서 나타난 부분과 같이 SLC 분류에서 안개로 분류되어 도출되지 않는 부분이 발생하였으며, 이보다 낮은 수준의 안개 발생으로 인해 예측 모델의 반사율 왜곡이 포함될 가능성이 있다. 이는 위성 이미지에서의 대기 산란과 안개의 영향으로 인해 데이터 품질이 저하되는 현상과 유사하며(Gascon et al., 2017), 추후 반사도 품질 저하를 확인하고 보정한다면 위성 데이터 기반 수질 예측 모델의 신뢰도를 높이고, 특정 기상 조건에서의 예측 성능 저하를 개선할 수 있을 것이다.

4. 요약 및 결론

본 연구는 남양호 유역을 대상으로 위성 원격탐사와 머신러닝 기반 Multi-Ensemble 모델을 결합하여 총유기탄소(Total Organic Carbon, TOC)를 간접적으로 추정하고자 하였다. 연구의 주요 결과는 다음과 같다:

(1) Sentinel-2A/B 위성자료를 활용하여 남양호 유역의 반사도 데이터를 구축하였으며, HSIC-Lasso 모형을 통해 TOC와 높은 상관성을 가지는 10개의 입력변수(B4/B3, B4/B5, B2/B3, B8/B7, B4/B2, B1/B3, B1/B5, B8/B6, B5/B2, B2/B5)를 도출하였다.

(2) TOC 예측을 위해 Support Vector Regression (SVR), Random Forest Regression (RFR), eXtreme Gradient Boosting (XGB), Multi-Layer Perceptron (MLP)을 베이스모델로, Partial Least Squares (PLS), Ridge Regression (RID) 등을 포함해 SVR, RFR, XGB, MLP의 총 6개 메타모델을 활용하여 Stacking 앙상블 모델을 개발하였다. Stacking 모델은 train 및 test 데이터셋에서 각각 R2 0.963, 0.886 및 MAE 0.697 mg/L, RMSE 1.556 mg/L로 가장 높은 성능을 보였으며, 베이스모델 대비 예측 정확도가 향상되었다.

(3) 2021년 5월부터 2023년 4월까지의 TOC 시계열 분석 결과, 장마철 전후로 TOC 농도가 뚜렷하게 변화하며 계절적 영향을 크게 받는 것으로 나타났다. 공간분포 분석에서는 TOC가 여름철 장마기 이후부터 가을, 겨울철에 걸쳐 증가하는 패턴을 보였으며, PD1(남양대교) 지점에서 장마철 TOC 감소 폭이 더 크게 나타났다.

Stacking 모델을 활용한 TOC 예측은 기존 단일 머신러닝 모델 대비 우수한 성능을 보였으며, 베이스모델과 메타모델의 조합이 예측 정확도 향상에 기여하였다. 본 연구 결과는 위성 데이터와 머신러닝 모델을 통합하여 TOC를 비용 효율적이고 지속 가능한 방식으로 모니터링할 수 있는 기반을 제시하며, 추후 장기간의 TOC 데이터 축적을 통해 수질 관리 및 정책 개발을 위한 실용적인 도구로 활용될 수 있을 것으로 기대된다.

Acknowledgements

본 결과물은 농림축산식품부의 재원으로 농림식품기술기획평가원의 농업기반및재해대응기술개발사업의 지원을 받아 연구되었음(320049-5). 본 논문은 행정안전부 재난안전 공동연구 기술개발사업의 지원을 받아 수행된 연구임(2022-MOIS63-001).

Conflicts of Interest

The authors declare no conflict of interest.

References

Ahmed, K., Sachindra, D.A., Shahid, S., Iqbal, Z., Nawaz, N., and Khan, N. (2020). "Multimodel ensemble predictions of precipitation and temperature using machine learning algorithms." Atmospheric Research, Vol. 236, 104806.

10.1016/j.atmosres.2019.104806

Amri, M.R.E., and Marrel, A. (2021). "Optimized HSIC-based tests for sensitivity analysis: Application to thermalhydraulic simulation of accidental scenario on nuclear reactor." Quality and Reliability Engineering International, Vol. 38, No. 3, pp. 1386-1403.

10.1002/qre.2954

Bonelli, A.G., Loisel, H., Jorge, D.S.F., Mangin, A., d'Andon, O.F., and Vantrepotte, V. (2022). "A new method to estimate the dissolved organic carbon concentration from remote sensing in the global open ocean." Remote Sensing of Environment, Vol. 281, 113227.

10.1016/j.rse.2022.113227

Breiman, L. (2001). "Random forests." Machine Learning, Vol. 45, pp. 5-32.

10.1023/A:1010933404324

Chang, N.B., Vannah, B.W., Yang, Y.J., and Elovitz, M. (2014). "Integrated data fusion and mining techniques for monitoring total organic carbon concentrations in a lake." International Journal of Remote Sensing, Vol. 35, No. 3, pp. 1064-1093.

10.1080/01431161.2013.875632

Chen, T., and Guestrin, C. (2016). "XGBoost: A scalable tree boosting system." KDD '16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, U.S., pp. 785-794.

10.1145/2939672.2939785

Chen, Y., Song, L., Liu, Y., Yang, L., and Li, D. (2020). "A review of the artificial neural network models for water quality prediction." Applied Sciences, Vol. 10, No. 17, 5776.

10.3390/app10175776

Cho, D.J., Yoo, C.H., Im, J.H., Lee, Y.S., and Lee, J.S. (2020). "Improvement of spatial interpolation accuracy of daily maximum air temperature in urban areas using a stacking ensemble technique." GIScience & Remote Sensing, Vol. 57, No. 5, pp. 633-649.

10.1080/15481603.2020.1766768

Chung, J.H., Lee, Y.G., Kim, J.U., Jang, W.J., and Kim, S.J. (2023). "Soil moisture estimation using the water cloud model and Sentinel-1 & -2 satellite image-based vegetation indices." Journal of Korea Water Resources Association, Vol. 56, No. 3, pp. 211-224.

10.3741/JKWRA.2023.56.3.211

Gascon, F., Bouzinac, C., Thepaut, O., Jung, M., Francesconi, B., Louis, J., Longjou, V., Lafrance, B., Massera, S., and Gaudel- Vacaresse, A. et al. (2017). "Copernicus Sentinel-2A calibration and products validation status." Remote Sensing, Vol. 9, No. 6, 584.

10.3390/rs9060584

International Ocean Colour Coordinating Group (IOCCG) (2018). Earth observations in support of global water quality monitoring. Reports and Monographs of the International Ocean Colour Coordinating Group No. 17, Dartmouth, Canada.

Jang, W.J., Kim, J.U., Kim, J.H., Shin, J.K., Chon, K.M., Kang, E.T., Park, Y.E., and Kim, S.J. (2024). "Evaluation of Sentinel- 2 based Chlorophyll-a estimation in a small-scale reservoir: Assessing accuracy and availability." Remote Sensing, Vol. 16, 315.

10.3390/rs16020315

Jeong, D.H., Chung, H.M., Cho, Y.S., Kim, E.S., Kim, C.S., Park, J.W., Lee, W.S. (2018). "A study on operation and management for TOC removal of public sewage treatment works." Journal of Korean Society of Water and Wastewater, Vol. 32, No. 6, pp. 535-550.

10.11001/jksww.2018.32.6.535

Jiang, D., Matsushita, B., Pahlevan, N., Gurlin, D., Fichot, C.G., Harringmeyer, J., Sent, G., Brito, A.C., Brotas, V., and Werther, M. (2023). "Estimating the concentration of total suspended solids in inland and coastal waters from Sentinel-2 MSI: A semi-analytical approach." ISPRS Journal of Photogrammetry and Remote Sensing, Vol. 204, pp. 362-377.

10.1016/j.isprsjprs.2023.09.020

Jung, K.Y., Lee, Y.K., Yoo, H.Y, Nam, G.S., Hur, J. (2021). "Changes in spectroscopic and molecular weight characteristics of dissolved organic matter in an agriculture reservoir during a summer monsoon." Journal of Korean Society on Water Environment, Vol. 37, No. 6, pp. 458-468.

Kahru, M., and Mitchell, B.G. (1998). "Spectral reflectance and absorption of a massive red tide off southern California." Journal of Geophysical Research, Vol. 103, No. C10, pp. 21601-21609.

10.1029/98JC01945

Kim, H.C., Kim, D.Y., and Kim. B.S. (2024). "Performance evaluation of stacking models based on random forest, XGBoost, and LGBM for wind power forecasting." Journal of Wind Energy, Vol. 15, No. 3, pp. 21-29.

Kim, J.K, Shin, M.S., Jang, C.W., Jung, S.M., Kim, B.C. (2007). "Comparison of TOC and DOC distribution and the oxidation efficiency of BOD and COD in several reservoirs and rivers in the Han River system." Journal of Korean Society of Water Quality, Vol. 23, No. 1, pp. 72-80.

Kim, J.U., Jang, W.J., Shin, J.K., Kang, E.T., Kim, J.H., Park, Y.E., and Kim, S.J. (2021). "Estimating TOC concentrations using an optically-active water quality factors in estuarine reservoirs." Journal of Korean Society on Water Environment, Vol, 37, No. 6, pp. 531-538.

Kim, S.J., Kim, S.J., and Kim, P.S. (2002). "Development and application of Freshwater Lake Water Quality Management System (FLAQUM) through the linkage of watershed and freshwater lake." Journal of the Korean Society of Agriucltural Engineers, Vol. 44, No. 6, pp. 124-136.

Kim, Y.J., Kang, E.J., Cho, D.J., Lee, S.W., and Im, J.H. (2022). "Improved estimation of hourly surface ozone concentrations using stacking ensemble-based spatial interpolation." Journal of the Korean Association of Geographic Information Studies, Vol. 25, No. 3, pp. 74-99.

Kim, Y.S., and Lee, E.J. (2019). "Establishment of target water quality for TOC of total water load management system." Journal of Korean Society on Water Environment, Vol. 35, No. 6, pp. 520-538.

Kutser, T., Verpoorter, C., Paavel, B., and Tranvik, L.J. (2015). "Estimating lake carbon fractions from remote sensing data." Remote Sensing of Environment, Vol. 157, pp. 138-146.

10.1016/j.rse.2014.05.020

Kwak, Y.J., Go, C.Y., Kwang, S.Y., and Eem, S.H. (2023). "Development of a high-performance concrete compressive-strength prediction model using an ensemble machine-learning method based on bagging and stacking." Journal of the Computational Structural Engineering Institute of Korea, Vol. 36, No. 1, pp. 9-18.

10.7734/COSEIK.2023.36.1.9

Latwal, A., Rehana, S., and Rajan, K.S. (2023). "Detection and mapping of water and chlorophyll-a spread using Sentinel-2 satellite imagery for water quality assessment of inland water bodies." Environmental Monitoring and Assessment, Vol. 195, 1304.

10.1007/s10661-023-11874-737828127

Lee, K.H., and Kam, J.H. (2024). "Spatiotemporal patterns of water volume and total organic carbon concentration of agricultural reservoirs over South Korea." Water Research, Vol. 256, 121610.

10.1016/j.watres.2024.12161038663212

Lee, Y.J., Hur, J., and Shin K.H. (2014). "Characterization and source identification of organic matter in view of land uses and heavy rainfall in the Lake Shihwa, Korea." Marine Pollution Bulletin, Vol. 84, No. 1-2, pp. 322-329.

10.1016/j.marpolbul.2014.04.03324841714

Panahi, J., Mastouri, R., and Shabanlou, S. (2022). "Insights into enhanced machine learning techniques for surface water quantity and quality prediction based on data pre-processing algorithms." Journal of Hydroinformatics, Vol. 24, No. 4, pp. 875-897.

10.2166/hydro.2022.022

Park, S.W., Lee, S.J., Yun, W.S., Shin, D.Y., Park, S.Y., and Lee, Y.W. (2018). "Estimation of Chlorophyll-a concentration for inland water using red-edge band of Sentinel-2 and RapidEye." Journal of the Korean Association of Professional Geographers, Vol. 52, No. 3, pp. 445-454.

Raiyani, K., Goncalves, T., Rato, L., Salgueiro, P., and Silva, R.M.D. (2021). "Sentinel-2 image scene classification: A comparison between Sen2Cor and a machine learning approach." Remote Sensing, Vol. 13, No. 2, 300.

10.3390/rs13020300

Ren, W.W., Yang, T., Huang, C.S., Xu, C.Y., and Shao, Q.X. (2018). "Improving monthly streamflow prediction in alpine regions: integrating HBV model with Bayesian neural network." Vol. 32, pp. 3381-3396.

10.1007/s00477-018-1553-x

Rumelhart, D.E., Hinton, G.E., and Williams, G.E. (1986). "Learning internal representations by error propagation." Parallel distributed processing: Explorations in the microstructures of cognition, Vol. I, Edited by Rumelhart, D.E., and McClelland, J.L., MIT Press, Cambridge, MA, U.S., pp. 318-362.

Satish, N., Anmala, J., Rajitha, K., and Varma, M.R.R. (2024). "A stacking ANN ensemble model of ML models for stream water quality prediction of Godavari River Basin, India." Ecological Informatics, Vol. 80, 102500.

10.1016/j.ecoinf.2024.102500

Shang, Y., Liu, G., Wen, Z., Jacinthe, P.A., Song, K., Zhang, B.,, Lyu, L., Li, S., Wang, X., and Yu, X. (2021). "Remote estimates of CDOM using Sentinel-2 remote sensing data in reservoirs with different trophic states across China." Journal of Environmental Management, Vol. 286, 112275.

10.1016/j.jenvman.2021.11227533684799

Shin, G.J., Gong, S.H., and Kim, T.G. (2020). "Mapping Chlorophyll-a distribution of drinking water reservoirs using Landsat 8 satellite imagery data." Journal of the Korean Society for Environmental Technology, Vol. 21, No. 1, pp. 40-47.

10.26511/JKSET.21.1.6

Sun, W., and Du, Q. (2019). "Hyperspectral band selection: A review." IEEE Geoscience and Remote Sensing Magazine, Vol. 7, No. 2, pp. 118-139.

10.1109/MGRS.2019.2911100

Tian, D., Zhao, X., Gao, L., Liang, Z., Yang, Z., Zhang, P., Wu, Q., Ren, K., Li, R., and Yang, C. et al. (2024). "Estimation of water quality variables based on machine learning model and cluster analysis-based empirical model using multi-source remote sensing data in inland reservoirs, South China." Environmental Pollution, Vol. 342, 123104.

10.1016/j.envpol.2023.12310438070645

U.S. Geological Survey (USGS) (2023). "Chapter A6." Guidelines for field-measured water-quality properties, U.S. Geological Survey Techniques and Methods, book 9, U.S. Department of the Interior, Reston, VA, U.S.

Vapnik, V., Colowich, S., and Smola, A. (1996). "Support vector method for function approximation, regression estimation and signal processing." Advances in Neural Information Processing Systems, Vol. 9, pp. 281-287.

Wolpert, D.H. (1992). "Stacked generalization." Neural Networks, Vol. 5, No. 2, pp. 241-259.

10.1016/S0893-6080(05)80023-1

Yamada, M., Jitkrittum, W., Sigal, L., Xing, E.P., and Sugiyama, M. (2014). "High-dimensional feature selection by feature-wise kernelized lasso." Neural Computation, Vol. 26, No. 1, pp. 185-207.

10.1162/NECO_a_0053724102126

Zhai, B., and Chen, J. (2018). "Development of a stacked ensemble model for forecasting and analyzing daily average PM2.5 concentrations in Beijing, China." Science of The Total Environment, Vol. 635, pp. 644-658.

10.1016/j.scitotenv.2018.04.04029679837

Journal of Korea Water Resources Association ISSN:2799-8746(Print) 2799-8754(Online) 한국수자원학회 논문집

Preview

Prediction of total organic carbon using multi-model ensemble based on satellite imagery in estuarine reservoir

ABSTRACT

MAIN

Fig. 1.

Study area, monitoring date and point

(1)

Fig. 2.

Process flow of TOC prediction through stacking ensemble model

(2)

(3)

(4)

Table 1.

Descriptive statistics of water quality in the Namyang Reservoir. (Chl-a: Chlorophyll-a, TSS: Total Suspended Solid, a355: aCDOM(355nm), TOC: Total Organic Carbon).

Table 2.

Correlation analysis between TOC and other water quality parameters

Fig. 3.

Sentinel-2A/B reflectance taken in Namyang reservoir

Fig. 4.

Heatmap of correlation between water quality parameters and reflectance (a) CDOM, (b) Chlorophyll-a, (c) TSS, (d) TOC

Table 3.

Staking model average and best case result

Fig. 5.

Best case train, test plots of stacking models by metamodel (PLS: Partial Least Squares, RID: Ridge regression, SVR: Support Vector Regression, RFR: Random Forest Regression, XGB: eXtreme Gradient Boosting, MLP: Multi-Layer perceptron

Fig. 6.

Boxplot of train and test for base model (a) RMSE result, (b) RRMSE result

Fig. 7.

Comparison of daily precipitation, maximum temperature, and point-by-point accuracy between observed and simulated TOC

Fig. 8.

TOC mapping in the Namyang reservoir basin from May 17 to November 8, 2022

Acknowledgements

Conflicts of Interest

References

Descriptive statistics of water quality in the Namyang Reservoir. (Chl-a: Chlorophyll-a, TSS: Total Suspended Solid, a355: $a_{C D O M} (355 n m)$ , TOC: Total Organic Carbon).