1. 서 론
2. 연구 지역 및 연구 자료
2.1 연구 지역
2.2 연구 자료
3. 연구 방법
3.1 kNN 알고리즘 기반 CCTV 영상 내 강설 입자 분리
3.2 CNNs 기반 강설 강도 산정 모델
3.3 랜덤 샘플링을 활용한 강설 강도 산정 모델 성능 분석
4. 연구 결과
5. 결 론
부 록
1. 서 론
최근 기후 변화로 인한 이상기후 현상이 전 세계적으로 빈번히 발생하고 있다. 이로 인해 강설, 폭우, 태풍과 같은 극단적 기상 현상의 강도와 빈도가 증가하고 있으며, 이러한 변화는 인프라, 교통, 농업 및 생태계에 심각한 영향을 미치고 있다(Narain et al., 2011; Rogelj et al., 2013). 특히, 강설은 단순한 기온 저하로 인한 현상을 넘어 교통 체증, 항공 지연 및 자연재해와 같은 사회적 문제를 초래하며, 이에 대한 신속하고 정확한 예측의 필요성이 강조되고 있다(Liu et al., 2013; Vionnet et al., 2022).
강설은 고위도 지역에서 지배적으로 발생하는 강수 유형 중 하나이며(Roots, 1989; Serreze and Barry, 2011), 기후 시스템 내에서 대기와 지표 간 에너지 교환에 영향을 미치는 주요 요소이다(Vavrus, 2007; Ohba, 2021). 강설의 발생과 축적은 지역적인 수문학적 순환과 빙하 형성에 기여하며, 이는 장기적인 수자원 관리 및 에너지 정책에도 중요한 요소로 작용한다. 예를 들어 강설은 강수-유출 과정을 지연시켜 유역 내 물수지 평형에 영향을 미치고(Strasser et al., 2008), 강설 후 급격한 해빙으로 인하여 단시간 내에 급증된 유출량으로 인해 홍수 위험이 가중될 수 있다(Tei et al., 2020). 또한 강설로 인한 눈 덮임의 변화는 지구 복사 평형을 변화시키며(McKenzie et al., 1998), 토양 수분에 직접적으로 작용하여 지표면에서의 순복사량(net radiation)을 제어하고(Feldman et al., 2019), 빙하의 축적 및 소멸과정에 작용하여 해수면 상승(Medley and Thomas, 2019)으로 이어지는 등 강설의 특성 변화에 따른 영향이 크게 나타타고 있다.
강설의 정량화는 주로 지상 관측(Thériault et al., 2012), 위성 관측(Liu and Seo, 2013), 재분석 자료(Palerme et al., 2017)를 통해 이루어진다. 지상 관측은 기상 관측소에서 눈 측정기와 적설판 등의 관측장비를 통해 이루어진다. 이 방법은 눈의 깊이, 밀도, 수분 함량 등을 정밀하게 측정할 수 있어 높은 신뢰도를 제공하지만, 관측 지점 중심의 자료이기 때문에 공간적 대표성이 낮고 자료수집의 제한이 있다는 한계를 보인다. 위성 관측은 수동 마이크로파 방사계와 광학 센서를 활용하여 넓은 지역의 적설 분포와 강설 강도를 모니터링한다. 간접 측정 방식이라는 점에서 관측 대상지에 대한 제한은 없지만, 위성 센서의 특성상 복잡한 지형, 구름층 등으로 인해 자료 품질이 저하될 수 있다. 재분석 자료는 위성 자료, 지상 관측자료, 수치 예보 모델을 통합하여 생성된 격자 형태의 데이터이다. 높은 시·공간적 해상도를 바탕으로 다양한 기후 연구와 수문학적 응용 분야에서 널리 활용되나, 수치 모델을 기반으로 생성된 자료라는 점에서 실제 관측 값과의 차이를 보일 수 있으며, 복잡한 지형이나 극단적인 기상 조건에서의 불확실성이 증가할 수 있다.
이에 따라, 전통적인 관측 장비에서 벗어나 IoT (Internet of Things) 센서(Joseph, 2019; Mohapatra and Subudhi, 2022; Hwang et al., 2024)를 활용한 연구가 활발히 진행되고 있다. IoT 센서는 실시간으로 대규모 데이터를 수집하고, 네트워크를 통해 데이터를 원격으로 전송할 수 있어 시공간 해상도를 크게 향상 시킬 수 있다. 특히, CCTV는 영상 기반 IoT 센서로서 기존 기상 관측망을 보완할 수 있는 강력한 도구로 활용될 수 있고(Jiang et al., 2019; Wang et al., 2023, 2024), 기존 방법과 비교했을 때 다양한 장점을 가진다. 첫째, 도시 및 교통 기반시설을 중심으로 광범위하게 구축된 장비를 활용함으로써, 추가적인 비용 없이 기상 관측 네트워크를 확장할 수 있다. 둘째, 다중 시점(multi-view) 관측이 가능하여 공간적 연속성을 확보할 수 있으며, 강설 강도의 시공간적 변화를 보다 정밀하게 분석할 수 있다. 셋째, 영상분석기술 및 딥러닝 기법의 적용을 통해, 실시간 강수량 추정이 가능하며 이상 기후 발생 시 조기 경보 시스템과의 연계성이 높다. 넷째, 기상 요소 관측뿐만 아니라 도로 결빙, 시정(visibility), 교통 흐름 등의 환경 요인을 동시에 감지할 수 있어, 다목적 기상 관측 및 도시 안전 관리 시스템과의 융합이 가능하다.
실제로 강우량 추정을 위해 CCTV 영상을 활용한 연구에서는 빗방울 수, 빗방울 크기 등을 분석하여 강우를 감지하거나 강우 강도를 산정하는 방법이 다수 제안되었다. Haurum et al. (2019)는 감시 카메라를 활용하여 기상 환경을 모니터링하는 접근 방식을 제안하였다. 이를 위해, 새로운 강우 탐지 데이터셋인 AAU Visual Rain Dataset (VIRADA)을 구축하고 3D Convolutional Neural Network (3D CNN) 기반의 강우 탐지 모델을 개발하였으며, 기존의 기법들과 비교하여 성능을 평가하였다. 그러나 제안된 방법은 강우의 존재 여부를 탐지하는 것이 주된 목적이므로, 정확한 강우량 산정에는 한계가 있었다. 3D CNN 기반의 강수 탐지 모델의 실시간 적용이 불가능하며, 이를 위한 추가적인 최적화가 필요하다는 한계점도 드러났다. Lee et al. (2023)은 적외선 감시 카메라를 활용하여 야간 환경에서 강우 강도 및 강우 입자 크기 분포(DSD)를 추정하는 기법을 제안하였다. 이를 위해, k-최근접 이웃 알고리즘을 적용하여 배경 영역과 빗줄기(rain streak) 영역을 분리한 후, 광학 분석(physical optics analysis)을 통해 강우 입자 분포를 산정하고 이를 바탕으로 강우 강도를 추정하였다. 그러나 제안된 알고리즘은 높은 강우 강도에서 빗줄기의 중첩(overlapping)으로 인해 강우량을 과대 추정하는 한계를 보였다. 또한, 본 연구는 적외선 영상 기반으로 수행되었기 때문에 낮 시간대의 RGB 이미지를 활용한 강우 강도 추정에는 적용이 어렵다는 한계를 가진다. Zheng et al. (2023)은 CCTV 영상을 활용한 실시간 강우 강도 추정을 위한 two-stage 딥러닝 모델을 제안하였다. 첫 번째 단계에서는 강우 입자의 특징을 추출하기 위한 전처리 과정을 적용하였고, 두 번째 단계에서는 CNN 기반 모델을 적용하여 실시간 강우량을 추정하도록 설계하였다. 그러나 본 연구에서는 영상 데이터의 참값(ground truth)으로 전도식 우량계(tipping-bucket rain gauge)에서 측정된 강우량을 활용하였으며, 이로 인해 몇 가지 한계가 발생하였다. 먼저 전도식 우량계는 누적된 강우가 일정량에 도달해야 기록이 되는 구조적 특성으로 인해 강우 강도의 변화를 즉각적으로 반영하지 못하며, 이는 실시간 추정 시 해상도의 지연이 발생하는 상황으로 이어질 수 있다. 또한, CCTV 영상과 비교하여 시간 해상도가 낮아 시공간 정합성(spatiotemporal consistency)에 제한이 따른다는 한계를 보였다.
한편, CCTV 영상을 활용하여 강설을 감지하거나 강설 강도를 산정하는 연구는 부족한 실정이다. 강설은 강우에 비해 입자의 크기, 형태, 밀도 등의 물리적 특성이 더욱 복잡하며, 기온, 습도, 풍속 등에 따라 높은 변동성을 보인다는 점에서 정확도 높은 강설 강도 산정을 위한 추가적인 분석의 필요성이 강조된다(Luo et al., 2020; Zhang et al., 2024). 또한, 도시 지역과 같은 다양한 기상 조건이 공존하는 복잡한 환경에서 강설 관측의 정확도가 더욱 저하될 수 있으며(Perryman and Dixon, 2013; Guo et al., 2021), 이는 도로 결빙 예측 오류로 인한 교통사고 위험 증가, 도시 내 적설 하중 초과로 인한 구조물 붕괴 위험, 그리고 잘못된 재난 대응 방식으로 인한 비효율적인 제설 작업으로 이어질 수 있다. 때문에 신뢰도 높은 강설 관측 데이터 확보 및 정확도 높은 강설 강도 산정 방법론의 가치가 증가하고 있는 실정이다. 이에 강우를 정량화하기 위해 활용된 다양한 영상 분석 및 머신러닝 기법을 강설 현상에도 적용하는 시도가 이뤄질 수 있지만, 강설은 강우보다 광학적 탐지가 어려운 특성을 가지므로 기존의 강우 탐지 기법을 단순 적용하는 것은 한계가 있다. 강설 입자는 강우 입자에 비해 불규칙한 형상을 가지며, 강설 강도와 입자 크기 사이의 관계가 강우에 비해 더 복잡하다. 또한, 영상 기반 탐지 시 강설 입자는 배경과의 대비가 약하고, 조명 및 기상 조건에 따라 탐지 성능이 크게 변할 가능성이 있다. 따라서, 기존 강우 탐지 모델을 강설 환경에 맞게 최적화하거나, 강설에 특화된 탐지 및 강도 산정 알고리즘 개발이 필요하다.
본 연구에서는 합성곱 신경망(Convolutional Neural Networks, CNNs)을 활용하여 CCTV 영상에서 관측된 영상을 기반으로 강설 강도를 산정하는 방법론을 제안하였다. 구름물리선도센터(Cloud Physics Observatory Station, CPOS)에서 관측된 CCTV 영상과 우적계의 한 종류인 PARSIVEL에서 관측된 강설 강도를 동일한 시간대에 매칭시키고, CCTV 영상과 PARSIVEL 강설 강도를 각각 모델의 입력과 출력으로 설정하여 image-value 모델을 정의하였다. 이후 전체 데이터의 80%를 학습 데이터로 설정하여 모델을 훈련시켰고, 나머지 20%는 테스트 데이터로 설정하여 모델 산정값과 PARSIVEL 관측값의 비교를 통한 정확도 검증에 사용되었다. 결과 분석의 편향을 줄이고 모델의 신뢰성을 확보하기 위해 테스트 데이터에서 랜덤 샘플링을 통해 500개의 표본을 500회 반복 추출하고, 다양한 평가 지표를 적용하여 모델의 성능을 최종 확인하였다. 이를 통해 본 연구는 향후 강설 강도 산정 및 예측의 정확도를 높이는 데 기여할 수 있는 기반을 제시하고자 하였다.
2. 연구 지역 및 연구 자료
2.1 연구 지역
국립기상과학원은 강원도 영동지방 산악지역에 구름물리관측시스템 구축을 시작으로, 2006년 11월에 구름물리선도센터를 설립하여 기상조절 실험 및 구름물리연구에 관한 연구를 수행하고 있다. 구름물리선도센터는 위도 37.69 °N, 경도 128.76 °E, 고도 843 m에 위치하고 있으며 (Fig. 1), 동해와 인접하고 태백산맥 자락에 자리 잡은 지형적 특성으로 인해 다양한 재해성 기상 현상이 발생하기 쉬운 환경적 특징을 보인다(Ro et al., 2019). 에어로솔, 구름, 강수의 특성을 다각적으로 관측할 수 있고, 구름의 미세물리적 특성을 분석함으로써 국내 에어로솔-구름-강수 상호작용 연구의 발전에 기여하며, 첨단 기상장비의 테스트베드 역할을 수행하고 있다.
2.2 연구 자료
본 연구에서는 한반도 폭설 사태가 발생한 일자 중에서, 2024년 2월에 해당하는 세 개의 사례를 연구 자료로 선정하였다(Fig. 2). Event 1의 경우 저기압의 영향으로 영동 지방 중심의 폭설 발생한 사례이며, Event 2와 Event 3의 경우 중부 지방 중심의 폭설이 발생한 사례이다. Event 1은 사상 내의 강설이 낮은 강도로 꾸준히 발생하였고, Event 2는 선정된 사상 후반부에 높은 강도의 강설이 발생하였으며, Event 3은 전반적으로 높은 강도의 강설이 지속되다가 후반부에 강도가 감소하는 특징을 보였다.
본 연구에서는 강설 입자의 특성을 파악할 수 있는 관측장비인 PARSIVEL에서 기록된 자료를 활용하였다. PARSIVEL의 관측 영역은 길이 180 mm × 폭 30 mm (54 cm2)이고, 강수가 발생했을 때 레이저빔(파장: 650 nm)의 차단량과 차단 시간으로부터 강수입자의 크기와 낙하속도 정보를 구하여 강수 형태, 액체 수량 등을 산출할 수 있는 관측장비이다. 강수 입자의 관측 가능 범위는, liquid precipitation의 경우 0.2 mm~8 mm이고 solid precipitation의 경우 0.2 mm~25 mm 이다. 입자크기와 낙하속도는 32개의 등급으로 구분되며, 관측 시간 간격(time interval)은 10 sec~3,600 sec 범위 내에서 선택이 가능하다. 강수 형태는 총 8개로 분류가 가능하며(e.g., drizzle, drizzle/ rain, rain, mixed rain/snow, snow, snow grains, sleet, hail), 레이저빔이 차단되는 시간과 신호의 크기에 따라서 입자의 종단속도와 강수입자 크기분포를 구한다. PARSIVEL은 2-D Video Disdrometer (2DVD)(Thurai et al., 2009; 2011), Joss-Waldvogel Disdrometer (JWD)(Sheppard and Joe, 1994; Islam et al., 2012), Precipitation Occurrence Sensing System (POSS) (Sheppard, 1990; Sheppard and Joe, 2008) 등의 입자 정보를 관측할 수 있는 다양한 종류의 장비에 비해서 상대적으로 넓은 측정 면적, 설치 및 유지보수의 용이성 등의 장점을 바탕으로 수문·기상학적 현상 규명을 위한 연구들에서 적극적으로 활용되고 있다(Löffler-Mang and Joss, 2000). 본 연구에서 활용된 CCTV의 경우, 고려대학교 수문기상 및 물순환 연구실에서 제작한 IoT 기반 통합 강수 관측 시스템에 포함된 구성 요소 중 하나이다(부록). 해당 시스템은 2023년 10월 6일부터 설치 및 운용 중에 있으며, 이 중 연구에 활용된 CCTV는 IDIS 사의 DC-S4516TWRX (-A) 모델으로 상세한 규격은 Table 1에 나타내었다. 전체 자료의 개수는 95,374개이며, Event별로 구분하면 각각 34,193개, 19,796개, 41,385개이다. 본 연구에서는 자료를 30 fps로 기록된 영상자료를 초 단위로 처리하였으며, 관측자료의 오류로 인해 기록되지 않은 자료(누락된 데이터) 8개, 5개, 16개를 각 Event에서 제외하였다.
Table 1.
Specifications of the CCTV used in the study
3. 연구 방법
3.1 kNN 알고리즘 기반 CCTV 영상 내 강설 입자 분리
데이터 전처리는 머신러닝 및 딥러닝 모델 개발 과정에서 필수적이며, 모델의 성능과 정확도를 결정짓는 핵심 단계이다(García et al., 2016). 원본 데이터의 정제, 변환, 통합, 추출, 분리 등 분석에 유리한 형식으로 변환하는 일련의 과정을 의미하며, 모델이 최적의 학습 성능을 발휘할 수 있도록 자료 내의 불필요한 노이즈(Frénay and Verleysen, 2013), 결측치(Wang and Wang, 2010) 등을 제거하여 정확하고 유용한 데이터 세트를 얻어내는 것이 목표이다. 특히, 수문학(Lidberg et al., 2017; Ikram et al., 2023), 기상학(Schlüter and Kresoja, 2020; Zhou et al., 2023)과 같은 복잡한 데이터 분석이 필요한 분야에서 자료의 품질 및 형식은 모델의 학습 결과에 직결된다는 점에서 데이터 전처리의 중요성은 더욱 강조되고 있다.
연구 자료로 설정된 CCTV 영상의 경우 실외에서 촬영 및 녹화가 진행되기 때문에, 강설과 무관한 다수의 정보들(Byun et al., 2023a)(e.g., 움직이는 사람들, 렌즈 앞에서 나타나는 벌레떼, 반복적으로 촬영되어 기록되는 주변 풍경 등)이 포함되어 저장된다. 따라서 본 연구에서는 CCTV 영상을 크게 세 가지 요소(① 배경(background) ② 전경(foreground) ③ 잡음(noise))로 분류하였고, 분석에 필수적인 정보를 구분하여 추출하고자 하였다. 첫 번째 요소인 배경(background)의 경우(①), CCTV에서 반복적으로 촬영 및 기록되는 요소 중 정적이고 변동성이 적은 정보(e.g., 건물, 도로, 나무, 고정된 구조물 등)를 의미한다. 배경의 정확한 식별은 영상 분석 과정에서 불필요한 정보 처리를 줄이고, 전경 요소 추출의 정확성을 높이는 데 필수적이다. 두 번째 요소인 전경(foreground)의 경우(②), 시간에 따라 변화하면서 분석의 주요 대상이 되는 동적인 정보(e.g., 사람, 차량, 기상현상, 먼지 등)를 의미한다. 본 연구에서는 강설 입자를 전경으로 간주하여, 강설 입자의 길이, 방향, 크기 등의 정보를 활용하여 강설의 물리적 특성 기반의 강설 강도 산정 모델을 정의하고자 하였다. 마지막 요소인 잡음(noise)의 경우(③), 분석 과정에서 배제되어야 할 불필요한 정보나 간섭 요소(e.g., 영상 내 조명 변화, 카메라 렌즈에 맺힌 물방울, 일시적인 장애물, 센서의 간섭 등)를 의미한다. 분석의 정확성을 저해할 가능성이 있다는 점에서, 전처리 단계에서 잡음을 효과적으로 제거하거나 완화할 필요가 있다.
원본 영상에서 전경에 해당하는 강설 입자 정보를 추출하기 위해 전체 프레임을 대상으로 k-최근접 이웃 알고리즘(k-Nearest Neighbor, kNN)을 적용하였다. kNN 알고리즘은 비모수(non-parametric) 방식으로, 기존 데이터와의 거리를 기준으로 k개의 최근접 데이터를 선택하여 회귀 또는 분류를 수행한다(Song et al., 2017; Zhang et al., 2018). 이는 데이터 마이닝과 머신러닝 분야에서 단순하지만 좋은 성능을 내는 기법 중 하나로 널리 알려져 있다(Wu et al., 2008; Wang et al., 2012; Zhang et al., 2017; Zhang, 2020). 대상 프레임과 배경 모델 간의 픽셀 차이가 사전에 설정된 임계값(threshold)을 초과하면 해당 픽셀을 전경으로 간주하고 전경 모델을 업데이트하며, 임계값 이하인 경우에는 배경으로 간주하여 배경 모델을 업데이트하는 방식으로 강설 입자를 CCTV 원본 영상에서 분리하였다. 추가적으로, 원본 영상(1920 × 1080)에서 관심 영역(Region of Interest, ROI)을 640 × 640 크기로 정의하고 크롭(crop)하였다. 좌상단 모서리와 우하단 모서리의 좌표를 각각 (600, 200), (1240, 840)으로 설정하였고, 좌표계의 원점은 영상의 좌상단에 위치시켜 x축은 좌측에서 우측으로, y축은 상단에서 하단으로 증가하는 방향으로 정의하였다. 전체 영역을 분석에 사용하지 않은 이유는 비효율적인 데이터 처리와 과도한 계산 자원 소모를 방지하기 위함이다. 특히, 반복적으로 강설 현상이 발생하지 않는 영역은 분석에 불필요한 정보를 포함한다는 점에서 모델 학습 성능을 저하시킬 수 있다. 따라서, 본 연구는 강설 강도 산정의 정확성과 효율성을 최적화하기 위해 ROI를 설정하여 데이터를 전처리하였다.
3.2 CNNs 기반 강설 강도 산정 모델
본 연구에서는 전처리 과정을 거친 단일 채널 이미지를 처리하기 위해 합성곱 신경망 기반의 딥러닝 모델을 설계하였다 (Fig. 3). 본 모델은 구름 이미지를 기반으로 강우량을 예측하는 문제를 해결하기 위해 선행 연구(Byun et al., 2023b)에서 제시된 합성곱 신경망 기반의 image-value 모델 일부를 수정하여 성능을 개선하고자 하였다. 3.1절의 전처리 단계를 거친 강설 입자 영상을 입력자료로 받은 이후, 최근방 이웃 보간법을 기반으로 640×640 크기의 입력자료를 160×160 크기로 조정하였다. 전체적인 모델은 다음과 같이 크게 세 가지 구조로 구분된다: ① 컨볼루션 블록(Convolution Block), ② 전역 평균 풀링(Global Average Pooling), ③ 완전 연결 계층(Fully Connected Layer).
첫 번째 구조인 컨볼루션 블록의 경우(①), 합성곱 신경망에서 입력 데이터로부터 유용한 특징을 추출하는 합성곱 신경망의 핵심 구조이다. 일반적으로 컨볼루션 블록은 컨볼루션 레이어(Convolution Layer), 배치 정규화(Batch Normalization), 활성화 함수(Activation Function), 그리고 풀링 레이어(Pooling Layer)로 구성된다. 먼저 컨볼루션 레이어에서 작은 크기의 필터를 사용하여 입력 데이터의 공간적인 특징을 파악하고, 이를 통해서 국소적인 특징이나 중요한 패턴에 대해서 효율적으로 학습한다. 이후 배치 정규화를 통해서 각 층의 출력값의 분포를 정규화하여 학습 안정성 및 수렴 속도를 높이고, 이를 통해서 기울기 소실 문제(Vanishing Gradient) 및 과적합 문제를 완화한다. 다음으로 활성화 함수는 컨볼루션 블록 내에서의 출력을 비선형적으로 변환하기 위해서 사용되며, 이를 통해서 복잡한 데이터 패턴을 학습하고 모델링하여 데이터의 비선형성을 학습할 수 있도록 한다. 본 모델에서는 ReLU (Rectified Linear Unit)의 단점을 보완한 LeakyReLU (Leaky Rectified Linear Unit)를 활성화 함수로 활용하였다. 마지막으로 풀링 레이어는 데이터의 공간적인 차원을 축소하여 계산 효율성을 높이고, 다운샘플링된 데이터를 통한 과적합 방지 및 모델의 강건성 확보가 가능하다. 풀링 레이어에서는 각 커널이 적용되는 영역 중 최대 값을 선택하여 해당 영역을 대표하는 값으로 설정하는 맥스풀링(MaxPooling)을 활용하였다.
두 번째 구조인 전역 평균 풀링의 경우(②), 완전 연결 계층(Fuly Connected Layer)의 한계점을 개선하기 위해서 고안된 구조이다. 기존의 합성곱 신경망 구조의 경우, 네트워크의 말단에 완전 연결 계층을 배치하는 것이 일반적인 형태였다. 해당 방식의 경우 입력된 데이터를 1차원 벡터로 평탄화하고 이를 완전 연결 계층에 매핑한다는 특징을 가졌다. 하지만 네트워크의 크기가 증가하는 경우 과적합이 쉽게 발생하고, 완전 연결 계층에 매핑하는 과정에서 높은 정보 손실이 나타나며, 처리 과정에서 상당한 양의 가중치가 요구되어 합성곱 신경망의 구조적인 이점을 상쇄시키는 등 다양한 한계점이 존재하였다(Matsumura et al., 2019; Basha et al., 2020; Zhao et al., 2024). 전역 평균 풀링은 이러한 한계점을 보완하기 위해서, 딥러닝 모델의 마지막 층에서 특징 맵(feature map)의 각 채널별 평균값을 각각의 출력 노드에 직접적으로 입력하는 구조를 취한다. 완전 연결 계층과 달리 각 채널의 평균값만을 계산하기 때문에 노드 수를 별도로 계산하거나 입력 크기에 맞게 설계할 필요가 없다는 점에서, 모델의 복잡도를 낮추고 계산량을 크게 감소시켜 효율적인 학습을 가능하게 한다.
마지막 구조인 완전 연결 계층의 경우(③), 입력 데이터와 출력 노드가 완전히 연결된 구조이고, 학습 가능한 가중치의 할당이 필요하다. 최종 출력이 강설 강도라는 단일 값이 되도록, 특징 맵 전체의 평균을 계산하는 전역 평균 풀링을 적용하고, 이후 두 개의 완전 연결 계층을 통해 강설 강도를 예측하는 구조로 모델을 설계하였다.
요약하자면 본 연구에서 제안한 모델은 총 3개의 컨볼루션 블록과 1개의 전역 평균 풀링, 그리고 2개의 완전 연결 계층으로 구성된다. 컨볼루션 블록의 경우, 첫 번째 블록은 32개의 필터를 사용하여 저차원 특징을 추출하며, 두 번째 블록에서는 필터 수를 64로 확장하여 더 높은 수준의 특징을 학습하고, 마지막 블록에서는 필터 수를 128로 증가시켜 더욱 복잡한 패턴을 효과적으로 학습할 수 있도록 설계하였다. 컨볼루션 블록에서 추출된 특징 맵의 정보를 보존하기 위해 전역 평균 풀링 계층을 적용하였으며, 완전 연결 계층은 각각 256개와 64개의 뉴런을 가지는 두 개의 은닉층(hidden layer)으로 구성하였다. 또한, 학습 과정에서 과적합을 방지하기 위해 드롭아웃(dropout) 비율을 40%로 설정하여 일부 노드를 무작위로 비활성화하였다. 최종 출력층은 단일 뉴런으로 구성되어 있으며, 이는 강설 강도 산정을 수행하기 위함이다. 전체 95,374개의 데이터 중 80%에 해당하는 강설 입자 이미지를 학습 데이터(train data)로 설정하여 CNNs 기반 강설 강도 산정 모델 훈련을 진행하고, 나머지 20%에 해당하는 이미지를 테스트 데이터(test data)로 설정하여 훈련된 모델의 성능을 검증하였다. 본 연구에서 사용된 모델의 하이퍼파라미터 설정값은 Table 2에 제시하였다.
Table 2.
Hyperparameter settings for the proposed model
3.3 랜덤 샘플링을 활용한 강설 강도 산정 모델 성능 분석
랜덤 샘플링은 모집단 내 모든 개체가 동일한 확률로 선택될 수 있도록 표본을 무작위로 추출하는 방법이다(Olken and Rotem, 1995). 데이터 분석 및 통계 연구에서 편향을 최소화하고 신뢰성 있는 결과를 도출하기 위해 널리 사용되며, 대규모 데이터를 다루거나 시간 및 자원의 제약으로 전체 데이터를 분석하기 어려운 경우에 효과적으로 활용된다(Clarkson, 1987; Efraimidis and Spirakis, 2006; Etikan and Bala, 2017). 랜덤 샘플링의 주요 장점은 모든 개체가 동일한 선택 확률을 가지므로 객관성이 보장되며, 모집단 특성을 대표하는 표본 구성을 통해 통계적 추론의 신뢰성을 확보할 수 있다는 점이다. 또한, 대규모 데이터 분석에 쉽고 효율적으로 적용할 수 있다는 점에서 큰 장점을 가진다. 본 연구에서는 강설 강도 산정 모델의 성능을 신뢰성 있게 평가하기 위해 랜덤 샘플링 기법을 적용하였다. 총 19,075개의 테스트 데이터 중 500개를 무작위로 샘플링하는 과정을 500회 반복하여 모델의 성능 지표를 산출하였다. 다양한 샘플링 결과를 종합적으로 분석하여 결과의 편향을 최소화하고, 산정 정확도와 일반화 성능을 신뢰성 있게 평가하고자 하였다. 각 샘플에 대해서 5개의 평가 지표(Percent Bias, Nash-Sutcliffe Efficiency, Coefficient of Determination, RMSE (Root Mean Square Error) - observations standard deviation ratio, Weighted Absolute Percentage Error)를 적용하여 모델의 강설 강도 산정 성능을 다양한 측면에서 검증하였다. 평가 지표에 관련된 상세한 내용은 Table 3에 기술하였고, PARSIVEL에서 관측된 강설 강도를 로, 본 연구의 모델에서 산정된 강설 강도를 로 표기하였다.
Table 3.
Details of model performance metrics
4. 연구 결과
kNN 알고리즘을 기반으로 CCTV 영상에서 강설 입자를 분리하고, ROI를 설정한 결과를 Fig. 4에 도식화하였다. 총 10초 동안 촬영된 300장의 원본 영상 프레임(Fig. 4(a))을 히스토리로 설정하여 배경 모델을 업데이트한 뒤, 배경(Fig. 4(b))과 전경(Fig. 4(c))을 분리하였다. 전경은 커널 기반의 모폴로지 연산을 적용하여 잡음을 제거하고 구조적인 연속성을 확보하였다. 50×50 크기의 타원형 커널을 활용하여 전경에 팽창(dilate) 연산을 적용하였고, 10×10 크기의 직사각형 커널을 사용한 열림 연산을 통해 잔여 잡음을 제거하였다. 강설 입자를 강조하기 위해 픽셀 밝기 값이 20보다 큰 경우를 1로, 그 이외는 0으로 치환하여 이진화 처리를 진행하였으며(Fig. 4(d)), 본 논문 내에 포함된 강설 입자 이미지는 모두 이와 동일한 방식으로 도시하였다.
CCTV 원본 영상은 전처리를 거쳐 Fig. 4(c)와 같은 형태로 변환되었으며, 이는 3.2절에서 제시된 CNNs 기반 강설 강도 산정 모델의 입력자료로 활용되었다. 변환된 영상은 다양한 크기의 강설 입자 특징을 효과적으로 추출할 수 있도록 설계된 컨볼루션 블록 내에서 여러 크기의 필터를 통과하도록 구성되었다. 이러한 구조를 통해 강설 입자의 크기, 형태, 밀도 등 다양한 공간적 특성을 최적화하여 학습하였다. 변환된 이미지는 동일 시간에 PARSIVEL을 통해 관측된 강설 강도 자료와 매칭하여 모델 학습을 진행하였다. 이는 영상 내 입자의 시각적 정보와 강설 강도의 정량적 특성을 연계하여, 모델이 강설 입자 특징을 정밀하게 학습하는 것을 목표로 하기 위함이다. 모델 학습 과정에서는 입력된 CCTV 강설 입자 영상이 CNNs 구조를 통해 특징이 추출되며, 이를 통해 이미지를 기반으로 하나의 값을 산정한다. 모델 성능을 검증하기 위해 테스트 데이터 중 일부를 무작위로 추출하여 Fig. 5에 나타내었으며, 각 이미지에 해당하는 시간대는 캡션에 표시하였다. 강설 강도 (, ) 값은 다음과 같다: (a) (5.381, 5.579), (b) (3.640, 3.395) (c) (0.000, 0.460), (d) (4.885, 4.773), (e) (4.667, 5.040), (f) (2.106, 2.091), (g) (1.015, 1.457), (h) (3.270, 3.283). 이때, 강설 강도의 단위는 mm/h이다.

Fig. 5.
Binarized snowfall particle image in test dataset captured on: (a) 05 February 2024, 01:50:36 LST (b) 22 February 2024, 01:47:38 LST (c) 20 February 2024, 06:22:00 LST (d) 21 February 2024, 21:08:06 LST (e) 22 February 2024, 03:36:17 LST (f) 21 February 2024, 22:56:29 LST (g) 21 February 2024, 22:17:21 LST (f) 05 February 2024, 03:50:39 LST
전체 데이터의 20%에 해당하는 테스트 데이터 19,075개에서 500개를 무작위로 선택하는 랜덤 샘플링을 총 500회 수행하였으며, 이 중 4회의 샘플링 결과를 추출하여 와 를 비교한 결과를 Figs. 6(a)~6(d)에 도식화하였다. 그 결과, 0 mm/h ~ 4 mm/h 구간에서는 와 상대적으로 유사한 패턴을 보였으나, 4 mm/h~8 mm/h 구간에서는 편차가 상대적으로 증가하였다. 특히 가 8 mm/h를 초과하는 경우 의 과소 추정 경향성이 드러났다. 이는 전체 샘플 중 강설 강도가 8 mm/h를 초과하는 데이터의 비율이 1.96%로 적어, 모델이 해당 구간의 데이터에 대한 학습이 충분하게 이루어지지 못한 것을 주 원인으로 분석하였다. 전체 구간에 대해 Mean Absolute Error (MAE)를 계산한 결과, 각각의 샘플에서 0.76 mm/h, 0.72 mm/h, 0.75 mm/h, 0.87 mm/h로 나타났다. 이를 통해 임의로 선택된 데이터 샘플에서도 강설 강도의 정량적 차이가 상대적으로 적음을 알 수 있었고, 본 연구에서 제안한 모델이 강설 강도를 안정적으로 산정할 수 있음을 검증하였다.
강설 강도 산정 모델의 성능을 분석하기 위해 Table 3에 제시된 5개의 평가 지표를 활용하였다. 선술한 바와 같이 500개를 무작위로 선택하는 랜덤 샘플링을 총 500회 수행하였고, 각 평가 지표에 대한 최솟값, 제1사분위수, 제2사분위수(중앙값), 제3사분위수, 최댓값 결과를 하나의 선으로 연결하여 레이더 차트(radar chart)로 시각화하였다(Fig. 7). 또한 평가 지표의 범위에 따른 일반적인 모델 성능을 구분하기 위해 일반적으로 적용되는 기준을 Table 4에 정리하였으며, 이를 랜덤 샘플링 결과의 중앙값과 비교하여 모델의 성능을 종합적으로 평가하였다.
PBIAS, NSE, R2, RSR, WAPE 순서대로 -22.62%, 0.65, 0.72, 0.60, 34.42%의 중앙값이 산정되었으며, 이는 Table 4에 제시된 performance rating 기준을 따라서 순서대로 Very Good, Good, Very Good, Good, Satisfactory로 분류되었다. PBIAS 지표가 음수 값으로 나타났다는 점에서, 모델이 실제 강설 강도보다 낮게 예측하는 경향성을 확인하였다. WAPE 지표의 경우, performance rating이 다소 낮은 편에 속하는 결과를 보였다. 이러한 결과는 WAPE의 계산 방식과 강수 데이터의 특성이 결합된 영향으로 해석될 수 있다. 해당 지표는 Mean Absolute Percentage Error (MAPE)를 계산할 때 실제 값이 0이 포함되는 경우 계산이 불가능하거나 극단적으로 큰 오차 값이 발생하는 한계를 보완하기 위해서, 전체 실제값의 합을 기준으로 오차를 정규화하는 방식을 취한다. 그러나 모델의 절대적 예측 오차가 크지 않더라도 실제값이 작은 샘플이 많으면 WAPE 지표가 높게 산정될 수 있으며, 실제로 강수 자료 내에는 0으로 기록되는 값이 다수 존재한다는 점이 영향을 미쳤다고 분석하였다. 더불어 MAE의 중앙값이 0.64 mm/h로 산정되어, 와 의 전반적인 차이가 1 mm/h 이하로 유지되는 높은 정확도의 모델이 구축되었음을 확인하였다.
Table 4.
General performance ratings for 5 different metrics
| Performance Rating | Metric | ||||
|
PBIAS (%) (Barbosa et al., 2019) |
NSE (Yilmaz and Onoz, 2020) |
R2 (Moore et al., 2011) |
RSR (Moriasi et al., 2007) |
WAPE (%) (Lewis, 1982) | |
| Very Good | [0, ±25) | [0.70, 1.00] | (0.70, 1] | [0.00, 0.50] | [0, 10) |
| Good | [±25, ±40) | [0.50, 0.70) | [0.50, 0.70) | (0.50, 0.60] | [10, 20) |
| Satisfactory | [±40, ±70) | [0.30, 0.50) | [0.30, 0.50) | (0.60, 0.70] | [20, 50) |
| Unsatisfactory | [±70, ∞) | (-∞, 0.30) | [0.00, 0.30) | (0.70, ∞) | [50, ∞) |
5. 결 론
본 연구에서는 구름물리선도센터에서 촬영된 CCTV 영상과 PARSIVEL 자료를 매칭시켜서 CNNs 기반 강설 강도 산정 방법론을 제안하였다. 총 세 개의 강설 사례를 선정하여 분석에 활용하였고, 자료를 머신러닝 모델에 입력하기 이전에 k-최근접 이웃 알고리즘(k-Nearest Neighbor, kNN)을 기반으로 강설 입자 이미지를 분리하기 위한 전처리 과정을 진행하였다. 관심 영역(Region of Interest, ROI)의 설정을 통해서 전체 이미지 중 일부 영역에 대한 처리를 통해 모델 훈련의 효율성을 향상시켰다. 이후 단일 채널 이미지를 입력 자료로 받아서 강설 강도를 산정하는 모델을 합성곱 신경망을 기반으로 구축하였다. PARSIVEL에서 관측된 강설 강도()와 본 연구에서 제안한 모델에서 산정된 강설 강도()는 총 5개의 metric을 기반으로 비교하여 모델 성능에 대한 분석을 진행하였다. 최종적으로 랜덤 샘플링을 진행한 표본의 평균을 도출하고, 일반적으로 모델 성능 평가에 적용되는 기준을 바탕으로 performance rating을 분류하고자 하였다.
그 결과, PBIAS, NSE, R2, RSR, WAPE 순서대로 -22.62%, 0.65, 0.72, 0.60, 34.42%의 중앙값이 산정되어 Very Good, Good, Very Good, Good, Satisfactory의 performance rating으로 분류되었다. PBIAS 값이 음수라는 점에서 모델의 과소 추정 경향성을 확인할 수 있었다. 이는 자료의 전체적인 패턴을 파악하는 머신러닝 모델의 특성을 원인으로 제시할 수 있으며, 강설 강도 자료 내 높은 강설 강도로 기록된 자료가 상대적으로 적게 분포한다는 점을 원인으로 파악하였다. WAPE가 다소 낮은 performance rating을 보였으나, 이는 WAPE의 계산 방식과 강수 데이터에서 0으로 기록된 자료가 많다는 점을 원인으로 분석하였다. 정량적인 측면에서 MAE의 평균값이 0.64 mm/h로 산정되어, 와 의 차이가 1 mm/h 이하인 정확도 높은 강설 강도 산정 모델을 제시하였음을 검증할 수 있었다.
본 연구에서 제시한 CNNs 기반 강설 강도 산정 기법은 도시 유역 및 다설 지역에서 강설 패턴을 실시간으로 분석하는 데 유용하게 활용될 수 있다. 특히, 대도시 및 교통망에서의 제설 대응 시스템과 눈사태 및 적설 하중 모니터링 등의 재난 예방 및 대응 시스템과 연계될 경우, 보다 신속하고 정확한 강설량 추정이 가능할 것으로 기대된다. 또한, 기존의 수치예보모델 및 강설 예측 알고리즘과 결합하여, 공간해상도가 개선된 강설 예측 모델로 고도화 될 수 있다. 본 연구에서 제안한 방법론은 강설 관측 네트워크가 제한적인 지역에서도 적용 가능하며, 실시간 강설 모니터링 및 도시 방재 시스템 구축에 기여할 수 있다.
향후 연구에서는 PARSIVEL에서 관측되는 다양한 데이터 중 강설 강도에 집중한 본 연구 방식에서 나아가, 입자분포자료를 활용하는 다수의 연구들이 진행 가능할 것이다. 미세물리적인 관점에서의 강설 발달 과정에 대한 심층적인 분석이 가능하며, 강설 입자의 크기, 형태, 속도 분포와 같은 정량적 특성들이 대기 중 물리적 상호작용에 미치는 영향을 체계적이고 구체적으로 분석할 수 있을 것으로 기대된다. 이와 더불어, 최근 각광받고 있는 생성모델 등의 이미지 처리 모델을 도입하여 강설 입자의 거동 특성을 더욱 정교하게 분석할 수 있다. Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs)와 같은 딥러닝 모델을 추가 적용하여 입자의 시공간적 변화를 시뮬레이션하고, 강설 발달 과정을 재현하여 강설 정량화와 연관된 분야에 기여할 수 있을 것으로 기대된다.









