1. 서 론
2. 연구지역 및 데이터
2.1 연구지역
2.2 데이터
3. 방법론
3.1 NDWI (Normalized Difference Water Index)
3.2 Otsu
3.3 Kittler-Illingworth (KI)
3.4 U-net
3.5 HRNet
3.6 Swin-Transformer
3.7 Confusion Matrix
4. 연구 결과 및 토의
4.1 수체 탐지 성능 평가
4.2 수변공간 변화탐지 모니터링
4.3 수변공간 모래톱 변화탐지 모니터링
5. 결론 및 요약
1. 서 론
하천은 자연환경과 인간 사회의 주요한 자원으로, 생물 다양성 유지, 수자원의 공급 및 수재해의 예방으로부터 중요한 역할을 수행하고 있어 지속적인 모니터링이 필수적이다(Russo et al., 2024). 특히, 기후변화의 영향으로 인해 기상 현상의 빈도가 증가하며, 불규칙한 강수의 패턴으로 인해 하천 모니터링의 필요성이 부각되고 있다(Jeong et al., 2021; Kim et al., 2022). 하지만 기존 모니터링 방식은 현장 관측으로 수행하고 있어, 많은 시간과 인력 및 비용이 소모된다. 또한, 접근성이 어려운 미계측 하천 및 광범위한 지역의 경우 지속적인 관측이 어렵다는 한계점이 존재한다(Lee et al., 2022; Kim et al., 2024).
이러한 기존 하천 모니터링의 한계점을 극복하기 위해 위성 원격탐사 기술의 활용성이 주목받고 있다. 위성 원격 탐사자료의 경우 광범위한 지역에서 지속적인 지표면 모니터링이 가능하다는 장점이 존재한다(Xu et al., 2021; Cordeiro et al., 2021; Kavats et al., 2022; Choi et al., 2022; Lee et al., 2022; Kim et al., 2024). 이를 통해 넓은 지역을 한 번에 관측할 수 있을 뿐만 아니라, 정기적인 모니터링이 가능해 실시간성 데이터를 확보할 수 있으며 하천 모니터링에 있어 효율성을 제공한다(Khandelwal et al., 2017).
광학 센서를 이용한 위성 원격 탐사 기술은 가시광선 및 근적외선 대역의 분광특성을 포함하고 있으며, 지표면의 특성을 다양하게 파악이 가능해 하천, 산림, 농경지 및 도심지역의 변화 탐지와 환경 모니터링에서 유용하다. 특히, NDWI (Normalized Difference Water Index)와 같은 분광지수를 이용하여 하천 탐지의 정확성을 높이는데 매우 효과적이므로, 수계 모니터링에 널리 사용되고 있다. 대표적으로, Sentinel-2 MSI (Multispectral Instrument) 위성 영상을 사용하고 있으며, 13개의 분광 대역을 제공하고, 10 m 급 공간 해상도를 통하여 세부적인 하천을 탐지하는데 사용되고 있다(Lee et al., 2023; Kim et al., 2024).
수체 탐지에서 사용되어 온 대표적인 고전기법 중 하나는 히스토그램 기반 임계값 기법이다. 임계값 기법은 영상내 히스토그램 분포를 분석하여 특정 임계값을 산정 후, 이를 기준으로 객체와 배경을 분류한다. 대표적인 임계값 기법으로는 Otsu, Kittler-Illingworth (KI) 임계값이 존재한다. Otsu 알고리즘은 영상 내 클래스 간 분산을 최대화하는 원리를 바탕으로 수체/비수체를 분류하는 최적의 임계값을 산정한다(Otsu, 1975). 그러나 이 방법은 수체와 비수체 간의 픽셀값 차이가 크지 않거나, 영상 내 수체와 비수체의 비율 차이가 불균등할 경우 성능이 떨어진다는 한계를 지닌다. KI 알고리즘의 경우 픽셀 값의 히스토그램을 두개의 가우시안 분포로 모델링 후, 각 분포의 이진 분류 오차가 최소가 되는 임계값을 산정한다(Kittler and Illingworth, 1986). 히스토그램 기반 임계값 기법의 경우 간단한 계산으로 수체/비수체의 분류가 가능하지만 노이즈가 많거나 수체/비수체의 비율이 불균등한 영상에서는 탐지 성능이 떨어진다는 한계점이 존재한다.
Threshold 기반의 수체 탐지 한계점을 개선하기 위하여 합성곱 신경망(Convolutional Neural Network, CNN) 기반의 구조로 설계된 심층학습(Deep-learning) 모델들이 주목받고 있다(Yang et al.,2022; Yuan et al., 2023; Kang et al., 2023). CNN 기반 모델은 수체/비수체의 공간적인 패턴을 정교하게 학습하는 구조를 통해 의미론적 영상 분할(Semantic Segmentation) 방식으로 높은 성능의 탐지가 가능하다. 수체 탐지의 대표적인 모델로 U-net, HRNet과 같은 모델이 있으며, U-net 모델의 구조는 인코더(encoder)-디코더(decoder) 아키텍처 기반의 모델로, 입력 이미지의 정보 및 특징을 추출하고 복원하여 다양한 공간적 패턴 학습으로 인해 수체 탐지의 분야에서 널리 활용되고 있다(Feng et al., 2018; Qin et al., 2021). HRNet 모델은 병렬적 네트워크 구조를 가지고 학습하며, 입력 이미지의 저해상도 및 고해상도의 특징을 결합하여 수체 탐지의 높은 성능을 보인다(Yu et al., 2022). 하지만 복잡한 지형을 지닌 수계와 하천의 지류에서의 탐지 성능이 떨어지는 경향이 보이고 있어, 지속적인 모델 개선이 필요한 상황이다.
이러한 필요성에 대응하기 위해, 최근 Transformer 기반의 모델이 개발되어 주목받고 있으며, 기존 CNN 기반 모델의 한계를 극복하고 보완하여, 고해상도 및 다중 해상도의 입력 이미지를 효율적으로 처리할 수 있는 구조를 제공한다(Han et al., 2021). 특히, Swin-Transformer 모델은 국지적(Self- attention) 및 전역적(Global attention) 정보를 모두 학습하여, 정밀한 특징 표현 및 연산 효율성을 유지하며 이러한 특성으로 인해 복잡한 수계 환경 및 다양한 지형적 특징을 지닌 지점에서의 하천 모니터링 분야에서 기존 CNN 기반 모델 보다 높은 성능을 보인다(Liu et al., 2021).
이에 본 연구에서는 Sentinel-2 MSI 영상을 활용하여 수체 탐지에 적용되는 고전기법(Otsu, Kittler-Illingworth) 및 CNN기반 모델(U-net, HRNet)의 한계를 극복하고자 Swin-Transformer 모델을 활용하여 성능을 평가하자고 하였다. 이를위해 Sentinel-2 영상에 고전기법(Otsu, Kittler-Illingworth), CNN (U-net, HRNet) 및 Swin-Transformer모델을 활용하여 수체 탐지를 진행하였다. 이후, Swin-Transformer 모델을 기반 수계 변화탐지 모니터링을 통해 기존 데이터와 Swin-Transformer의 비교를 통해 변화탐지 활용 가능성을 평가하였다.
2. 연구지역 및 데이터
2.1 연구지역
본 연구에서는 국내 주요 하천인 금강 유역의 세종보, 공주보, 백제보를 대상으로 수체 탐지를 진행하였다(Fig. 1). 각 보는 금강 상류·중류·하류에 위치하며, 수문학적 특성이 다양한 환경에서의 수체 탐지 성능을 평가하기 위해 선정하였다. 연구대상 지역은 각 보의 상·하류 구간으로 총 6개의 구간이며, 세종보 상류(a-1)와 하류(a-2), 공주보 상류(b-1)와 하류(b-2), 백제보 상류(c-1)와 하류(c-2)로 검증하였다. 세종보는 금강에 위치한 세개의 보 중 가장 상류에 있으며, 보 유역면적은 6,942 km2이며 5,700,000 m2의 수량 확보가 가능하다. 공주보의 경우 15,500,000 m2의 수량 확보가 가능하며, 7,408 km2의 유역면적을 가지고 있다. 그리고 백제보는 하류에 위치해 있으며 세개의 보 중에서 7,976 km2으로 가장 넓은 유역면적을 가지고 있으며 24,200,000 m2의 수량을 확보할 수 있다. 금강의 주요 보에는 상·하류 수위 관측소가 설치되어 있으며, 금강홍수통제소(환경부)와 국가수자원관리종합정보시스템(WAMIS)을 통해 시·일 단위의 수문 자료가 제공된다. 또한 금강 유역은 상류 산악지대에서 하류 평야지대에 이르기까지 다양한 지형과 인공 구조물, 도시 및 농경지 등 복합적 환경이 분포하고 있어, 수체 탐지 및 모니터링 연구에 적합한 지역으로 선정되었다. Table 1은 환경부 금강홍수통제소(http://www.geumriver.go.kr)에서 제공하는 금강 주요 보의 제원을 나타낸다.
Table 1.
Target Geum river specifications
2.2 데이터
2.2.1 Sentinel-2
Sentinel-2는 유럽우주국(ESA)이 운영하는 Copernicus 프로그램의 일환으로, 지구 관측을 위해 설계된 위성(Sentinel -2A/Sentinel-2B)으로 구성된 위성 시스템이다. Sentinel-2A는 2015년에, Sentinel-2B는 2017년에 발사되었으며, 두 개의 위성은 상호보완적으로 작동하여 영상을 촬영한다. Sentinel-2 위성은 MSI를 탑재하고 있어, 13개의 다중 스펙트럼을 제공받으며, 가시광선과 근적외선 그리고 단파 적외선을 포함한다. Sentinel-2 위성은 10 m에서 60 m의 공간 해상도와 5일의 방문 주기를 통해 주요 지점을 지속적으로 모니터링이 가능하다. 13개의 밴드는 식생 및 수체 탐지와 같은 다양한 분야에 활용되며, Band2(Blue, 490 nm), Band3(Green, 560 nm), Band4(Red, 665 nm), Band8(NIR, 842 nm) 밴드에서 10 m의 고해상도 이미지를 제공한다. 본 연구에서는 Sentinel -2 MSI 영상을 사용하였으며, 대기 및 지형 보정을 거친 Level-2A 영상을 활용하였다. 2019년 1월부터 2024년 12월까지 금강 유역에서 촬영된 총 55장의 Sentinel-2 MSI 영상을 활용하여 금강 수계를 대상으로 분석되었으며, Sentinel-2 MSI의 센서 정보는 Table 2에 제시되어 있다.
Table 2.
Sentinel-2 MSI bands information
2.2.2 검증자료
본 연구에서는 ENVI 5.6.3 소프트웨어를 활용하여 수동마스크(Manual Mask) 자료를 수체 탐지 결과 검증에 사용하였다. Water label 작업은 Sentinel-2 위성 영상의 Band8(Near Infrared Radiation, NIR) 영상을 사용하여 수행되었으며, NIR 영상은 식생 및 수분 함유량의 차이를 명확히 구별할 수 있어 대상 지역의 정확한 분류를 위해 선정되었다. Label 작업은 ENVI의 관심 영역(Region of Interest, ROI) 툴을 사용하여 수행되었으며, Geometry 기능을 통해 Polygon 형태로 관심 영역을 정의하였다. 이후 Magic Wand 도구를 통해 label 작업을 수행하였다. 이 도구는 사용자가 지정한 초기 픽셀을 기준으로 분광 특성이 유사한 영역을 자동 선택하는 기능을 제공하여, 수체와 비수체의 경계를 효율적으로 구분하는데 사용되었다. 또한 토지피복 및 Google Earth Pro를 참고하여 수체 영역을 정밀하게 작업하였다. 전체 과정은 Fig. 2의 다이어그램에 정리하였으며, 이를 통해 구축된 수동 마스크는 연구지역 검증자료로 활용되었다. 본 연구에서는 해당 수동 마스크를 참조 레이블(reference water mask)로 정의하고, 신뢰도를 검토하기 위한 정확도 평가를 수행하였다.
3. 방법론
3.1 NDWI (Normalized Difference Water Index)
Sentinel-2 MSI 위성 영상은 다중 스펙트럼 데이터를 제공하며, 수체 탐지 분야에서는 NDWI가 주로 사용된다(Singh and Kansal, 2022). 수체와 식생 및 육지의 표면을 NIR 밴드, Green밴드 간의 반사율 차이를 통해 수체를 효과적으로 식별이 가능하며, NIR 밴드에서의 수체 표면은 낮은 반사 특성이 보이며, 식생 및 육지의 표면에서 Green 밴드는 높은 반사 특성이 보인다(McFeeters, 1996; Du et al., 2016). 이러한 특성을 활용하여 Eq. (1)과 같이 계산하여 NDWI의 수체/비수체 경계를 명확히 구분할 수 있다.
NDWI는 높은 값을 수체로 나타내고 낮은 값을 비수체로 나타내어 구분하며, -1에서 1사이의 값으로 분포 되어있다. 이러한 값의 특성을 활용하여 수체/비수체 경계가 뚜렷하게 구분되며 다양한 환경에서의 정밀한 탐지가 가능하다.
3.2 Otsu
Otsu 기법은 영상의 히스토그램 분포를 분석하여 두 클래스 간의 분리를 가장 효과적으로 구분하고, 임계값을 자동으로 산정하는 방법이다(Otsu, 1975). 영상의 픽셀 값을 배경과 객체라는 두 집단으로 가정하고, 각 집단의 분산과 두 집단 간의 분산을 비교하여 클래스 간 분산이 최대가 되는 지점을 최적 임계값으로 산정한다. 이러한 방식은 임계값을 사용자가 직접 지정해야 하는 기존 방법과 달리, 영상 데이터의 통계적 특성을 기반으로 자동화된 분류가 가능하다는 장점이 있다. 그러나 수체와 비수체 간 반사율 차이가 작거나 영상 내 조도 편차가 큰 경우 임계값의 안정성이 낮아 오탐지율이 높게 나타난다. 또한 그림자, 인공 구조물, 복합 토지피복 환경에서는 픽셀 간 경계가 불분명해 탐지 정확도가 저하되는 한계가 있다. 따라서 단일 스펙트럼 분포에 기반한 Otsu 기법은 복잡한 하천 환경보다는 단순한 수계 탐지에 적합하다.
3.3 Kittler-Illingworth (KI)
Kittler-Illingworth (KI) 기법은 픽셀 값의 분포를 통계적으로 분석하여 클래스 간 분류 오류를 최소화하는 방식으로 임계값을 결정한다(Kittler and Illingworth, 1986). Otsu 기법이 클래스 간 분산을 기준으로 임계값을 찾는 데 반해, KI 기법은 수체와 비수체의 픽셀 값이 각각 특정한 확률 분포를 따른다고 가정하고, 이때 오분류 확률이 가장 낮아지는 지점을 최적 임계값으로 산정한다. KI 기법은 Otsu보다 통계적 기반이 강화되어 비교적 안정적인 탐지가 가능하지만, 여전히 단일 밴드의 픽셀 값 분포에 의존하므로 다중 스펙트럼 정보나 공간적 패턴을 충분히 반영하지 못한다. 따라서 복잡한 하천 환경에서 혼합 픽셀, 모래톱, 식생이 존재할 경우 탐지 성능이 저하되며, 세밀한 경계 검출에도 한계가 있다.
3.4 U-net
U-net은 합성곱 신경망 기반의 segmentation 모델로, 영상 내 객체를 픽셀 단위로 분류하는 데 특화되어 있다. 이 모델의 가장 큰 특징은 대칭적인 encoder-decoder 구조와 skip connection의 결합이다. encoder는 합성곱 연산과 다운샘플링을 반복하여 입력 영상의 특징을 점진적으로 추출하고, decoder는 업샘플링을 통해 해상도를 복원하면서 분할 결과를 산출한다. 이 과정에서 encoder 단계에서 추출된 고해상도 특징맵을 decoder 단계로 직접 전달하는 skip connection을 통해 공간 정보 손실을 보완하고, 세밀한 경계 검출이 가능해진다. 그러나 다운샘플링과 업샘플링 과정에서 미세한 정보 손실이 발생할 수 있으며, 복잡한 하천 구조나 좁은 지류에서는 경계가 불명확해지는 한계가 존재한다. 또한 인공 구조물과 수체의 반사 특성이 유사할 경우 오탐지 가능성이 높아진다.
3.5 HRNet
HRNet은 합성곱 신경망 기반의 segmentation 모델로, 다양한 해상도의 특징을 병렬적으로 유지하며 학습하도록 설계되었다. 전통적인 CNN 기반 모델들이 연속적인 다운샘플링을 거쳐 저해상도 특징을 중심으로 학습하는 반면, HRNet은 학습 전 과정에서 고해상도 특성을 보존하는 장점을 가진다. 이를 위해 네트워크는 서로 다른 해상도의 branch를 병렬적으로 구성하고, 각 단계에서 교차 융합(fusion)을 수행한다. 고해상도 branch는 객체의 경계와 같은 세밀한 정보를 학습하고, 저해상도 branch는 더 넓은 맥락 정보를 학습한다. 이후 두 정보가 상호 보완적으로 결합되어 정밀한 분할 결과를 산출한다. 다만 HRNet은 국소적(high-resolution) 특성 보존에는 유리하지만, 광범위한 영역의 전역적 문맥 정보를 학습하는 데에는 한계가 있어 복잡한 지형이나 다양한 지표 특성을 가진 하천 환경에서는 탐지 결과가 일관되지 않게 나타날 수 있다.
3.6 Swin-Transformer
Swin-Transformer는 Transformer 아키텍처 기반으로 설계된 모델이며, 입력 데이터를 일정한 비율의 크기로 분할한 후, 일련의 Transformer 블록을 통해 처리하는 구조이다(Liu et al., 2021). 고차원 데이터를 효율적으로 처리하는 장점이 있으며, 객체 탐지에서의 탐지에서 높은 정확도의 성능을 제공한다. Swin-Transformer의 주요 구성요소는 계층적 표현(Hierarchical Representation)과 윈도우 기반 Self-attention(Window-based Self-attention) 그리고 Shifted Windows로 구분된다.
(1)계층적 표현은 입력 데이터를 다양한 해상도의 패치로 나눠 계층적으로 처리하여 여러 특징을 학습할 수 있도록 하는 구조이다. 입력데이터의 고해상도에서는 세부적인 정보와 저해상도에서는 전연 적인 정보를 효과적으로 표현한다.
(2)윈도우 기반 Self-attention (Window-based Self-attention)은 입력 데이터를 고정된 크기의 Window로 나누어 각 Window에서만 Self-attention 연산을 수행하는 구조이다. 연산에 효율성을 크게 향상시켜 적은 데이터로 효율적으로 학습이 가능하다.
(3)Shifted Windows는 연속되는 레이어 간의 Window 위치를 이동시키는 구조이며, 인접해 있는 Window 간의 정보를 교환한다. 이는 Window 간의 정보 손실을 최소화시키며, 입력 데이터의 정보를 반영하기 위한 구조이다.
이러한 구조는 Swin-Transformer 블록 내부에서 윈도우 단위 Self-attention (W-MSA)을 적용하여 지역적인 특징을 학습한 뒤, Shifted Windows Self-attention (SW-MSA)을 통해 인접 영역 간 정보를 보완하는 순서로 이루어진다. 각 단계 사이에는 다층 퍼셉트론(MLP)과 정규화 과정(LN)이 포함되어 있어 학습을 안정화하며, 이러한 블록이 여러 단계 반복되면서 수체의 국지적·전역적 특징을 동시에 반영할 수 있도록 설계되었다(Fig. 3).
본 연구의 모델 훈련에는 다양한 수계 환경을 지는 영상을 활용하였고, 512×512 크기로 나눈 영상을 입력자료로 사용하였다. 총 100 에폭(epoch)으로 설정하여 학습을 진행하였으며, Swin-Transformer의 구조적 특징을 활용하여 수체의 형태와 분포를 효과적으로 학습할 수 있도록 하였다.
3.7 Confusion Matrix
본 연구에서는 수체 탐지 모델의 성능을 평가하기 위하여 다양한 성능 평가 지수를 사용하여 혼동행렬을 활용하였다. Sentinel-2 MSI 영상을 기반으로 디지타이징한 레이블 자료를 사용하여 각 모델의 성능을 비교하여 평가하였다. 혼동행렬은 실제 값과 예측 값의 조합에 따라 네 가지 요소로 구분된다. TP (True Positive)는 실제 수체를 수체로 올바르게 탐지한 경우, TN (True Negative)은 실제 비수체를 비수체로 정확히 탐지한 경우를 의미한다. 반면, FP (False Positive)는 실제로는 비수체이지만 수체로 잘못 분류된 경우, FN (False Negative)은 실제 수체가 비수체로 잘못 탐지된 경우를 나타낸다. 혼동행렬을 기반으로 분석된 성능 지표로는 종합적인 정확도를 평가하는 정확도(Accuracy), 미탐지에 관한 평가 지표의 재현율(Recall), 오탐지에 대해 평가하는 정밀도(Precision), 재현율 및 정밀도를 조합하여 평가한 F1-Score, 수체 탐지의 성능을 전박적으로 평가하는 IoU (Intersection over Union)가 포함되어 있다. 이러한 성능 평가 지수는 0에서 1의 범위를 가지며 높은 값이 나올수록 탐지의 성능이 높을수록 우수함을 의미한다.
4. 연구 결과 및 토의
4.1 수체 탐지 성능 평가
본 절에서는 수체 탐지의 고전기법인 Otsu, KI와 CNN기반 모델인 U-net과 HRNet 모델 그리고 Transformer 기반의 Swin-Transformer 모델을 활용하여 수체 탐지의 성능을 정량적으로 비교 및 검증하였다. Fig. 4는 각각의 모델에서 수체 탐지를 수행한 결과를 시각적으로 나타내었으며, 각 모델의 성능을 혼동행렬 기반으로 평가한 결과는 Table 3에 제시하였다. Otsu 및 KI 모델에서는 NDWI 단일 밴드를 사용하였으며, U-net, HRNet 및 Swin- Transformer 모델은 Sentinel-2의 Green 밴드(560 nm)와 NIR 밴드(842 nm)를 활용하여 NDWI를 산출하고, 이를 수체 탐지를 위한 입력값으로 수체를 탐지하였다.
Table 3.
Performance comparison of water body detection models: Confusion matrix-based metrics (Accuracy, Precision, Recall, IoU, and F1-score)
Otsu, KI 기법은 최적의 임계값을 자동으로 설정하여 수체/비수체를 구분하지만, NDWI 단일 밴드를 활용하여 수체와 비슷한 반사 특성을 지닌 인공구조물, 그림자와 같은 환경에서의 탐지 정확도의 성능이 제한된다. Otsu 기법은 최적의 임계값을 자동으로 산정한 히스토그램을 기반으로 수체/비수체를 구분하지만, 다종분포의 히스토그램으로 인한 탐지의 성능이 제한적이며, 재현율 0.99, 정밀도 0.29로 오탐지가 높게 나타나였다(Table 3). 반면, KI 기법은 통계적 기준을 기반으로 오차를 최소화하여 임계값을 산정하는 방법으로, 픽셀 값의 확률 분포를 통하여 수체와 비수체에 대한 오탐지율을 감소시키며 정밀도 0.70으로 Otsu보다 개선된 탐지 성능을 보인다. 반면에, Otsu와 KI 모델은 좁은 지류에서 비교적 높은 성능을 보였다. 이는 작은 지류에서 수체와 비수체 간의 경계가 명확하게 나타나 두 모델이 보다 효과적으로 수체를 탐지하기 때문이다. CNN기반의 모델인 U-net, HRNet 그리고 Transformer 기반의 Swin-Transformer 모델은 Otsu 및 KI 임계값 기반 기법과는 달리, NIR 밴드와 NDWI 지수를 병행한 다중 밴드 데이터를 활용하여 수체와 비수체를 보다 정확하게 탐지하였다(Kim et al., 2024). CNN기반의 U-net, HRNet 그리고 Transformer 기반의 Swin-Transformer 모델은 각각 0.65, 0.77, 0.88의 IoU를 기록하였으며, Otsu와 KI 기법에 비해 높은 성능을 나타냈다. CNN기반의 U-net 모델은 인공 구조물과 수체의 유사한 반사 특성으로 인한 오탐지가 발생하였으며, 인코더(encoder)-디코더(decoder) 과정에서 정보 손실로 인한 얇은 지류에서의 탐지 성능이 제한적이다(Valman et al., 2024). 이에 비해 HRNet 모델은 병렬적 네트워크 구조를 기반으로 하여, 다중 해상도의 특징을 유지하며 공간 정보 손실을 최소화하여 보수적으로 탐지하여, 재현율 0.97로 높은 탐지 성능을 보이지만, 정밀도 0.58로 복잡한 수계에서의 한계점은 여전히 존재하였다.
Swin-Transformer 모델은 Transformer 기반으로, 윈도우 단위로 입력 데이터를 분할하여 각각의 세부적인 특징을 학습하고, 윈도우를 이동시키며 데이터의 관계를 전체적으로 분석하는 방식으로, 다양한 크기 및 형태를 정밀하게 구분하여 기존의 수체 탐지기법인 Otsu, KI 및 U-net, HRNet 모델 보다 높은 정확도의 수체탐지 성능을 보인다. Swin-Transformer는 인공 구조물과 도심지가 존재하는 지역과 넓은 수계에서 재현율 0.98로 안정적인 성능을 보였으나, 얇은 지류에서의 탐지 한계점이 나타난다. 추가적으로, Fig. 2의 두 사례(a-2, c-2)는 Swin-Transformer 모델이 상대적으로 한계를 보였던 경우를 포함한다. 특히 좁은 지류와 인공 구조물이 복잡하게 혼재된 지역에서는 수체와 비수체 간의 경계가 불명확하여, Swin-Transformer 모델이 수체 영역을 과소 탐지하거나 주변 구조물을 수체로 잘못 분류하는 경향이 관찰되었다. 이는 윈도우 기반의 국소적 특징 학습 과정에서 좁고 불규칙한 경계부의 공간적 연속성이 충분히 반영되지 못하기 때문으로 판단된다. 따라서 Swin-Transformer는 넓은 수계에서는 뛰어난 성능을 보이지만, 지류가 세분화되고 인공 구조물 및 그림자가 혼재하는 복잡한 환경에서는 개선의 여지가 있음을 확인하였다.
4.2 수변공간 변화탐지 모니터링
앞선 4.1절에서 Swin-Transformer가 가장 우수한 수체 탐지 성능을 보였음이 확인되었다. 이에 본 절에서는 다시점 Sentinel-2 영상을 활용하여 금강 주요 보(세종보, 공주보, 백제보)의 상·하류 구간을 대상으로 수변공간 변화탐지를 수행하였으며, 수동 레이블 자료를 활용하여 검증하였다(Fig. 5). 평가 결과 Accuracy 0.99, IoU 0.83, F1-score 0.90으로 나타나 높은 탐지 성능이 도출되었다(Table 4).
Table 4.
Performance evaluation of river change detection model
| Model | Accuracy | Precision | Recall | IoU | F1-score |
| Change detection | 0.99 | 0.99 | 0.83 | 0.83 | 0.90 |
지역적 분석에서는 각 보의 지형적 특성과 수문학적 조건이 탐지 결과에 직접적인 영향을 미쳤다. 세종보 구간은 협곡형 하천 형태를 보이는 상류 지역으로, 좁은 지류와 교량·제방 등 인공 구조물이 혼재되어 있었다. 이로 인해 모델이 미세 경계부에서 일부 수체를 과소 탐지하거나 구조물을 수체로 오탐지하는 경향이 관찰되었다. 그러나 주요 수계의 형태 변화는 안정적으로 탐지되었으며, 특히 평수기 대비 갈수기 수위 저하로 드러난 하안부 노출 영역을 정확히 반영하였다.
공주보 구간은 중류의 평야 지대에 위치해 있어 수변 폭의 확장과 축소가 명확하게 나타났다. 이 지역에서는 평수기 수위에서의 안정적인 수계 폭이 잘 표현되었으며, 갈수기에는 하천 중심부로 수위가 크게 줄어드는 현상이 효과적으로 탐지되었다. 백제보 구간은 하류부에 위치해 유역이 가장 넓은 지역이다. 모델은 광범위한 수계 영역에서 발생하는 수변 변화를 높은 정밀도로 탐지하였으며, 평수기에는 비교적 안정된 수계 폭을, 갈수기에는 수량 감소에 따른 수체 축소 현상을 정확히 반영하였다. 다만 일부 수변 경계에서는 수체와 토사의 혼합 특성으로 인해 오탐지가 발생하였다.
결과적으로 Swin-Transformer는 다양한 하천 환경에서 수변공간 변화를 효과적으로 모니터링할 수 있음을 확인하였다. 특히 평수기와 갈수기의 수위 변동을 정량적으로 반영하여 수체 면적 변화를 파악할 수 있었으며, 이는 유역 규모와 지형적 특징에 관계없이 안정적인 성능을 보여주었다. 이러한 결과는 하천의 수문학적 상태를 주기적으로 관측하고, 수자원 관리 및 재해 예방에 활용될 수 있는 근거를 제공한다.
4.3 수변공간 모래톱 변화탐지 모니터링
하천에서 형성되는 모래톱은 유량 변화와 하상 퇴적·침식 과정을 직접적으로 반영하는 중요한 지형 요소로, 하상 안정성, 홍수 위험 평가와 밀접하게 관련된다. 따라서 모래톱의 시·공간적 변화를 정량적으로 파악하는 것은 하천 관리와 재해 대응 측면에서 중요한 역할을 한다. 본 절에서는 Swin-Transformer를 적용하여 금강 주요 보 구간의 모래톱 변화를 탐지하였으며(Fig. 6), 그 결과 Accuracy 0.99, Precision 0.97, Recall 0.73, F1-score 0.82를 기록하였다(Table 5). 전반적으로 대규모 모래톱 탐지에서는 안정적인 성능을 확보하였으나, 소규모 변화 탐지에서는 다소 한계가 확인되었다.
Table 5.
Performance evaluation of sandbar change detection model
| Model | Accuracy | Precision | Recall | IoU | F1-score |
| Change detection | 0.99 | 0.97 | 0.73 | 0.72 | 0.82 |
세종보 구간은 협곡형 하천 형태로 상대적으로 소규모 모래톱이 형성되는 지역이다. 모델은 이러한 국지적 변화를 일정 부분 탐지하였으나, 갈수기와 평수기의 수위 차이에 따른 미세한 경계 이동은 탐지 결과에 반영되지 않았다. 공주보 구간은 퇴적 활동이 빈번한 평야 지대에 위치해 있어 모래톱의 확장과 축소가 활발하게 나타났다. 평수기에는 비교적 안정된 경계가 관찰되었으나, 갈수기에는 하천 중앙부와 하안부에서 불규칙한 경계가 드러났다. 이 과정에서 모델은 대규모 퇴적 변화는 잘 탐지하였으나, 습윤·건조 상태 변화로 인한 불명확한 경계에서는 재현율이 낮게 나타났다. 백제보 구간은 하류부의 광범위한 수계가 형성되어 있으나, 모래톱 분포가 뚜렷하지 않아 변화 탐지 결과가 다른 구간에 비해 상대적으로 제한적이었다. 이 지역에서는 모델이 주요 수변 형태를 안정적으로 재현하였으나, 모래톱과 같은 세부 퇴적 요소는 확인하기 어려웠다.
따라서 본 연구에서는 Swin-Transformer가 대규모 모래톱 변화를 탐지하는 데 효과적인 성능을 보였으며, 넓은 범위의 변화 모니터링에도 적용할 수 있음을 확인하였다. 반면, 소규모 변화나 습윤·건조 상태가 맞닿은 경계 구간에서는 성능이 다소 제한적으로 나타났다(Wang et al., 2019). 이러한 결과는 향후 시계열 자료 활용이나 경계 영역 보정 방법을 적용할 경우 탐지 성능을 개선할 수 있음을 보여준다.
5. 결론 및 요약
본 연구에서는 Sentinel-2 영상을 기반으로 Otsu, KI 임계값 기법 및 CNN 구조의 U-net, HRNet 그리고 Transformer 기반 Swin-Transformer 모델을 적용하여 국내 주요 유역의 수계 탐지를 평가하였다. 수체 탐지를 위해 고전기법 및 딥러닝을 통한 최적의 탐지 모델을 선정하였고, 국내 하천 유역을 대상으로 광학 위성 자료를 통한 수계 변화탐지 모니터링의 적합성을 평가하였다는 점에서 그 의미가 있다고 판단하였으며, 본 연구에서는 다음과 같은 결론을 도출할 수 있었다.
(1) Threshold 기반의 고전기법인 Otsu와 KI를 활용한 수체 탐지 기법은 KI 기법에서 높은 탐지 정확도가 나타났다. 이는 Otsu에 비해 KI 기법이 복잡한 경계 구분에서 안정적이며, 보수적으로 탐지한다.
(2) CNN 기반 모델인 U-net, HRNet을 활용하여 수체 탐지 성능을 비교한 결과, U-net 모델은 인코더-디코더 기반으로 해상도 축소 및 복원 과정에서 학습의 한계점이 나타났다. 반면에 HRNet 모델은 병렬적 네트워크 구조를 기반으로 저해상도 및 고해상도 특징을 동시에 학습하여 탐지 성능이 높게 나타나였다.
(3) 기존의 전통적인 수체 탐지 기법 Otsu, KI 및 CNN기반의 U-net, HRNet 모델과 Transformer 기반의 Swin-Transformer 모델을 활용하여 정량적으로 평가하였으며, Swin-Transformer 모델에서 높은 성능이 나타났다. 이는 윈도우 기반 Self-Attention 메커니즘과 계층적 구조를 통해 복잡한 패턴과 세밀한 정보를 효율적으로 학습하여 높은 정확도의 수체 탐지가 가능하다.
(4) Swin-Transformer 모델 기반 수계 변화탐지에서 높은 정확도로 탐지가 가능하였지만, 복잡한 지형을 가진 수계에서의 미탐지 픽셀이 존재하였으며, 하천에 형성되어 있는 모래톱 경계 가장자리에서 혼합 픽셀로 인한 오탐지 픽셀이 존재하였다.
광학 위성 영상을 활용한다면 국내 주요 하천의 수체 탐지 및 환경 변화를 지속적으로 모니터링이 가능하다. 본 연구를 기반으로 딥러닝 기반 모델을 활용하여 높은 정확도에서의 탐지가 가능하다면, 하천의 수체 탐지뿐만 아니라 모래톱의 지형적 특성까지 효과적으로 탐지가 가능할 것으로 기대된다. 추후 광학 위성 영상과 고도화된 딥러닝 기반 탐지 기술을 통해 하천의 생태계 변화를 효율적으로 모니터링하여 하천 복원 관리 체계의 구축이 가능할 것으로 예상된다.








