Research Article

Journal of Korea Water Resources Association. 30 April 2022. 257-266
https://doi.org/10.3741/JKWRA.2022.55.4.257

ABSTRACT


MAIN

  • 1. 서 론

  • 2. 차원축소 및 변수선택법

  •   2.1 차원축소와 간결성의 원리

  •   2.2 변수선택법

  • 3. 설계강우량 시간분포 회귀식의 변수선택

  •   3.1 설계강우량 시간분포 회귀식 산정

  •   3.2 변수선택법을 이용한 회귀계수의 결정

  • 4. 설계강우량 시간분포 회귀식의 결정

  •   4.1 지점별 시간분포 회귀식의 유의성 검정

  •   4.2 설계강우량 시간분포 회귀식의 결정

  • 5. 결 론

1. 서 론

국지성 호우 및 설계빈도 이상 강우의 증가로 침수피해가 매년 증가하고 있으며 이에 따라 홍수 조절 및 방어를 위한 수공구조물의 중요성이 증가하고 있다. 수공구조물은 목적과 성능에 따른 설계가 이루어지고 있고 홍수량이 중요한 산정 요소이나, 국내에서는 관측자료의 신뢰성 부족 및 데이터의 부족으로 인하여 수공구조물 설계를 위한 수문해석의 입력자료로 사용되는 설계강우량은 확률강우량의 산정과 시간분포가 중요한 요소로 작용한다. 강우의 시간분포 방법에는 Mononobe 방법, 교호블럭방법, Huff (1967)의 4분위 방법, Keifer and Chu (1957) 방법, Pilgrim and Cordery (1975) 방법, Yen and Chow (1977) 방법 등 다양한 방법이 있다. 시간분포 방법 중 국내 실무에서 보편적으로 사용되고 있는 방법은 설계홍수량 산정요령(MLTMA, 2012)과 홍수량 산정 표준지침(ME, 2019)에서 제시하고 있는 Huff의 4분위 방법으로 분위 선정은 확률강우량도 개선 및 보완연구(MLTMA, 2011)에 의거하여 최빈분위(2, 3분위) 중 3분위를 안전측으로 채택하여 사용하고 있으며, 시간분포를 위한 방법으로는 전반적으로 정확도가 높게 나타나는 6차 다항회귀식을 일률적으로 사용하고 있다.

Seo (1965)에 의해서 국내에서 최초로 호우에서의 시간분포 개념이 정립된 후 여러 학자들에 의해 강우의 시간분포에 관한 다양한 연구들이 진행되었다. Park and Lee (1980)은 서울지점에 대하여 Huff의 4분위 방법을 적용한 서울지점의 시간분포에 관한 연구를 진행하였으며, Seo et al. (1989)은 우리나라 전국 지점을 대상으로 Huff의 4분위 방법, Yen and chow방법, Pilgrim and Cordery 방법 등을 적용하여 강우의 시간분포에 대한 분석을 실시하였다. Lee and Kim (2005)은 도시지역에서 강우의 시간분포를 분석하여 수문학적 특성을 분류하기 위해 Yen and Chow 방법과 Huff의 4분의 방법을 적용하였다. Jang et al. (2006a, 2006b)은 유역의 특성이 반영된 기존의 문제점을 보완한 새로운 강우의 시간분포를 제시한 바 있다.

기존 설계강우량 시간분포에 대한 연구는 Mononobe 방법, Yen and Chow 방법, Pilgrim and Cordery 방법, Huff의 4분위 방법 등 주로 시간분포 방법에 대한 연구들이 이루어졌으며, 시간분포 회귀식의 회귀계수 검정에 관한 연구는 매우 미흡한 실정이다. 현재 MLTMA (2012)에서 제시한 Huff의 4분위 방법의 6차 다항회귀식을 수공구조물 설계를 위한 시간분포 방법으로 획일적으로 사용하고 있고 시간분포 회귀식의 적정 차수 결정에 대한 객관적 기준이 부재한 상황이었으나 Park et al. (2018)은 다항회귀식의 회귀계수에 대한 유의성 검정을 시도하였으며, 다항회귀식은 고차식으로 올라갈수록 결정계수가 높아져 적합도가 높아지나 4차 이상의 회귀식은 결정계수의 차이가 거의 없다는 결과를 도출하였다. 해당 연구 이후 시간분포 회귀식의 유의성 검정은 실무에서 조금씩 이루어지고 있으나 적정 차수 결정 및 검증에 관한 연구는 이루어지지 않고 있는 실정이다.

따라서 본 연구에서는 실무에서 일반적으로 설계강우량의 시간분포를 위해 사용하고 있는 Huff의 4분위 방법의 누가우량백분율을 이용하여 설계강우량 시간분포 회귀식을 유도하고 회귀계수 유의성 검정방법을 적용하여 간결한 설계강우량 시간분포 회귀식을 산정하였다.

2. 차원축소 및 변수선택법

2.1 차원축소와 간결성의 원리

이론적으로 변수의 개수가 증가함에 따라 모델의 성능도 증가하지만 현실에서는 변수의 개수가 선형적으로 늘어날 때, 동일한 설명력을 갖기 위해 필요한 객체의 수는 지속적으로 증가하며 차원이 너무 커지면 계산이 복잡해지고 동일한 성능을 갖기 위해 필요한 데이터의 수가 증가하는 문제점이 있다. 또 객체의 수가 많을 경우 개별 객체 간에 상관관계가 높을 가능성이 크고 선형 회귀와 같은 선형모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 다중 공선성 문제로 모델의 예측 성능이 떨어질 수 있다. 다차원의 객체를 차원 축소하여 객체의 수를 줄이면 더 직관적으로 데이터를 해석할 수 있다. 차원축소의 목적은 단순히 데이터의 압축을 의미하는 것이 아니라 차원축소를 통해 데이터 본질을 보다 더 잘 나타내는 최적의 변수들의 부분집합을 찾는 것이라고 할 수 있다.

통계 모델링에서 간결성의 원리(Principle of Modeling Parsimony)도 차원축소와 같은 목적을 가진다고 할 수 있다. 선형 회귀를 사용하여 모델을 구축할 때 일반적으로 모델의 정확도는 결정계수 R2를 확인하는 경향이 있다. 그러나 여러 개의 변수가 존재할 때 변수들 사이에 공선성이 존재할 수 있고 이러한 모델은 정확도가 떨어질 수 있으므로 불필요한 변수를 삭제하여 정확도를 높일 수 있다. 이처럼 일단 보존할 통계량이 결정되면 모델링에서의 문제는 이러한 통계량을 적절히 재현할 수 있는 최소의 모수 수를 가진 모형을 찾는 것이다. 즉, 너무 많은 모수 추정치를 사용하는 것은 모수 수에 있어서 통계적 간결성(절약) 원칙을 위반하는 것이라고 할 수 있다(Salas et al., 1980).

2.2 변수선택법

2.2.1 PRESS 통계량

PRESS 통계량(Predicted Residual Error Sum of Squares statistic)은 모형의 예측력을 판단하기 위해 Allen (1971)에 의해 제안되었고, 다음 Eq. (1)과 같이 표시된다.

(1)
PRESS=i=1neii2=i=1nYi-Yii^2

여기서, Yii^i번째 자료를 제외하고 적합한 모형으로부터 i번째 값을 추정한 것이다.

PRESS 통계량은 여러 모형들의 예측력을 비교할 수 있는 유용한 통계량으로 PRESS 기준에 의해서 모형을 선택할 때에는 PRESS값이 작을수록 예측력이 높다고 판단할 수 있다. 또한 예측력의 비교를 위해 PRESS 잔차를 이용한 통계량 RPRESS2이 있는데, RPRESS2가 높을수록 예측력이 높다고 할 수 있다.

(2)
RPRESS2=1-PRESSi=1nYi-Y2

여기서, i=1nYi-Y2는 SST로 나타낼 수 있다.

R2와 SSR은 독립변수의 수가 증가하면 일률적으로 그 값이 커진다. 반면에 RPRESS2는 독립변수의 수에 따라 증가하다가 감소하는데 가장 큰 값을 최적모형으로 판단할 수 있고, MSE와 PRESS는 감소하다가 다시 증가를 하는데 가장 작은 값을 최적모형으로 판단할 수 있다.

2.2.2 변수선택법

독립변수의 조합에 의해 만들어지는 많은 모형들 중 몇 개의 합리적인 모형을 선별하는 방법을 최적모형 탐색법이라고 하며, 기본적으로 단계선택법(Stepwise Selection), 전진선택법(Forward Selection), 후진제거법(Backward Elimination) 등의 방법이 있다(Seong and Lee, 2001).

(1) 단계선택법

단계선택법(Stepwise Selection)은 전진선택법과 후진제거법을 모두 이용하는 방법으로 모든 변수가 포함된 모델에서 출발하고 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나 모델에서 빠져있는 변수 중에서 기준 통계치를 가장 개선시키는 변수를 추가하는 방법으로 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단한다. 이 방법은 전진선택법과 후진제거법보다 더 오래 걸리지만 최적의 변수 조합을 찾을 확률이 높다.

단계선택법은 두 가지 종류의 검정을 실시하여야 한다. 즉, 전진선택법에서 사용하였던 변수를 추가할 것인지에 대한 Entry 검정과 후진제거법에서의 검정인 변수를 제거할 것인지에 대한 Exit 검정을 필요로 한다. Draper and Smith (1981)에 의하면, 두 종류 검정의 유의수준은 같은 값으로 설정하는 것이 좋다고 하였는데, 그 이유는 제거될 변수를 찾는 검정의 유의수준이 추가될 변수를 찾는 검정의 유의수준보다 작으면 같은 변수를 추가하고 제거하는 과정이 반복 수행하게 되어 무한 루프에 빠져들 수 있기 때문이다. Exit 검정의 유의수준 값을 Entry 검정의 유의수준보다 크게 하여 사용하는 것이 일반적이다. 그러나 유의수준의 값은 분석자의 취향에 의해 결정될 사항으로 이 문제에 대해 특별한 의견이 없다면 같은 값으로 설정하는 것이 바람직하다. 따라서 본 연구에서는 두 검정의 유의수준을 모두 0.15로 설정하여 수행하였다.

(2) 전진선택법

전진선택법(Forward Selection)은 예측변수가 없는 상황에서 하나씩 변수를 추가하는 방법으로 더 이상 중요한 변수가 없다고 판단할 때까지 반복수행하고, 직전까지의 변수를 모형에 포함시키는 방법으로 한번 선택된 특성은 제거되지 않으므로 더 많은 특성 조합에 대해 모델을 평가할 수 없다는 단점을 가지고 있다.

이처럼 전진선택법은 최대 k번의 검정에 의해 최종 모형이 선택되는데, 각 검정의 유의수준에 따라 최종모형이 다를 수 있다. 즉, 유의수준의 값이 크면 보다 많은 독립변수가 모형에 추가될 수 있고, 유의수준의 값이 작으면 상대적으로 적은 수의 독립변수를 갖는 모형이 선택된다. 모형탐색의 목적은 하나의 모형을 찾는 것이 아니고 가능한 범위 내에서 비교 대상이 되는 모형의 수를 줄이는 것이므로 유의수준의 값을 어느 정도 크게 하고 각 단계에서 얻어지는 모형을 심도 있게 검토하는 것이 바람직하다.

대부분의 가설검정에서는 유의수준으로 0.01, 0.05 또는 0.10를 사용하는 것이 보통이나, 모형 탐색의 목적을 달성하기 위해서는 이보다 큰 값을 선택하는 것이 좋다고 판단된다. 본 연구에서는 전진선택법의 각 검정에 대해 기본적으로 유의수준 0.25로 검정을 실시하였다.

(3) 후진제거법

후진제거법(Backward Elimination) 모든 예측변수를 모형에 포함시키는 것에서 출발하여 단계적으로 하나씩 통계적 유의성에 따라서 가장 유용성이 떨어지는 예측변수를 제거해 나가고 남아있는 예측변수들이 모두 유의할 때 중단하는 방법으로 계산시간이 많이 소요되고 불안정한 단점이 있다. 먼저 모든 독립변수를 포함하는 회귀모형을 최소제곱법 등의 방법으로 적합시킨 뒤, 가장 작은 추가자승합(extra sum of square)을 가지는 독립변수의 회귀계수에 대한 검정을 실시한다(추가자승합은 각각의 독립변수가 마지막으로 그 모형에 포함될 때의 효과를 의미). 검정의 결과가 통계적으로 유의한 경우에는 모든 독립변수를 유의미한 것으로 판단하고 가장 큰 모형을 적합시킨다. 검정의 결과가 유의하지 않은 경우에는 대응하는 독립변수를 모형에서 제외한 뒤, 새로운 회귀모형을 적합시키고 위의 절차를 반복한다. 후진제거법은 한번 제거된 특성은 다시 선택되지 않으므로 전진선택법과 동일하게 더 많은 특성 조합에 대해 모델을 평가할 수 없다는 단점을 가지고 있다. 후진제거법의 특성상 유의수준의 값을 너무 크게 하면 진행이 일찍 종료되어 제한된 수의 모형만 살펴볼 수 있으므로 전진선택법과는 달리 크게 정하지 않는 것이 좋다. 본 연구에서는 후진제거법의 각 검정에 대해 기본적으로 유의수준 0.1로 검정을 실시하였다.

후진제거법에 의해 선택되어진 모형이 최적모형이 아니라는 것은 자명하므로 후진제거법이 진행되는 과정에서 얻어진 모형에 대해 PRESS 통계량 또는 MSE 기준에 의해 비교해봐야 한다.

3. 설계강우량 시간분포 회귀식의 변수선택

3.1 설계강우량 시간분포 회귀식 산정

본 연구에서는 최적화된 설계강우량 시간분포 회귀식 산정과 Park et al. (2018)의 유의성 검정 결과와 비교검토를 위하여 해당 연구에서 사용한 것과 동일한 확률강우량도 개선 및 보완연구(MLTMA, 2011)에서 제시한 Huff의 4분위법 무차원 누가곡선을 이용하여 연구를 진행하였다. 산정지점은 Park et al. (2018)의 연구에서 선택한 구미지점을 포함하여 추풍령, 문경, 대구지점까지 총 4개 지점을 대상으로 시간분포 회귀식을 산정하고 최적 변수를 선택하였다(Table 1).

Table 1.

Cumulative rainfall percentage of 50% probability of occurrence by Huff’s 3rd quartile

Rainfall duration percentage (%)
0 10 20 30 40 50 60 70 80 90 100
Cumulative rainfall percentage (%) Gumi 0.0 4.8 10.7 19.4 27.6 39.2 58.3 77.6 90.4 96.6 100.0
Chupungryeong 0.0 3.2 8.5 16.6 26.3 39.9 62.7 80.6 92.4 97.7 100.0
Mungyeong 0.0 3.4 9.2 18.4 29.0 44.4 64.6 81.8 92.5 97.3 100.0
Daegu 0.0 3.2 9.9 18.4 28.3 42.3 59.1 79.4 91.3 97.5 100.0

또한 강우지속기간 백분율이 0% 및 100%를 둘 다 만족하는 회귀계수를 산정할 수 없으므로 Park et al. (2018)의 연구에서 언급한 바와 같이 그래프가 절점이 (0,0)인 지점을 통과하도록 Eq. (3)과 같은 절편이 0인 회귀식을 이용하여 4개 지점의 3차부터 7차까지 설계강우량 시간분포 회귀식의 회귀계수를 산정하였다(Table 2).

Table 2.

Estimation of regression coefficients of polynomial regression equation for temporal distribution (7th Equation)

Station
Coefficient
Gumi Chupungryeong Mungyeong Daegu
C1 0.051891855 -0.516646267 -0.240364114 -0.137548483
C2 0.057383186 0.135761146 0.091374564 0.06311039
C3 -0.002147248 -0.007284004 -0.00463207 -0.002168104
C4 2.84971E-05 0.000190737 0.000121943 3.25175E-05
C5 1.46914E-07 -2.39438E-06 -151712E-06 -1.01552E-08
C6 -5.218E-09 1.39643E-08 8.4951E-09 -3.33785E-09
C7 2.56743E-11 -3.01606E-11 -1.67582E-11 1.83845E-11
Determination coefficient 0.999868 0.999801 0.999939 0.999919
(3)
Y=C1X+C2X2+C3X3++CnXn

3.2 변수선택법을 이용한 회귀계수의 결정

앞 절에서 산정된 회귀식을 대상으로 통계자료 분석 프로그램인 R 프로그래밍을 이용하여 전진선택법, 후방제거법, 단계선택법에 의한 최적변수 선택과정을 수행하였다.

본 연구에서 수행한 변수선택 과정에서는 앞 장에서 설명한 바와 같이 적합한 모델을 찾는 과정으로 방법별 선정한 유의수준을 기준으로 변수를 추가하거나 제거하는 방법을 사용하고, PRESS 통계량을 이용하여 선택된 변수들로 이루어진 모형의 적합도를 판단한다. 본 연구에서는 구미, 추풍령, 문경, 대구지점 등 4개 지점을 대상으로 3차부터 7차까지의 설계강우량 시간분포 회귀식을 이용하여 연구를 진행하였다.

Tables 3~6은 각각 구미, 추풍령, 문경 및 대구지점의 최적 회귀계수 선정결과를 나타낸 것으로서 단계선택법, 전진선택법, 후진제거법 및 선택의 범위를 넓히기 위해 전진선택법에 정보기준인 AIC (Akaike Information Criterion)와 SBC (Schwarz Bayesian Information Criterion)를 추가한 방법까지 총 5종류의 변수선택법을 적용하였다. 변수의 추가와 제거를 위한 유의수준은 단계선택법의 경우 0.15, 전진선택법은 0.25, 후진제거법은 0.10을 적용하였으며 최적의 모형 선정을 위해서 앞 장에서 설명한 PRESS 통계량 및 AIC와 SBC 값을 적용하였다.

Table 3.

Results of statistic by model selection method (Gumi)

Max. Degree
Method
7th 6th 5th 4th 3rd
Stepwise
selection
Selected Parameter C1, C2, C7C1, C2, C6C2, C5C2, C4C2, C3
Adj R2 0.9986 0.9985 0.9983 0.9979 0.9967
Standard Deviation 2.28281 2.30143 2.51339 2.72490 3.47165
PRESS
R2 PRESS
164.364
0.9959
94.5059
0.9976
79.9682
0.9980
101.289
0.9975
242.027
0.9939
Forward
selection
Selected Parameter C1, C2, C7C1, C2, C6C1, C2, C3, C4, C5C1, C2, C3, C4C1, C2, C3
Adj R2 0.9986 0.9985 0.9989 0.9989 0.9966
Standard Deviation 2.28281 2.30143 1.96612 1.96275 3.51241
PRESS
R2 PRESS
164.364
0.9959
94.5059
0.9976
613.412
0.9846
218.838
0.9945
245.027
0.9938
Backward
elimination
Selected Parameter C2, C3, C4, C6, C7C2, C3, C4, C5, C6C1, C3, C4C1, C3, C4C2, C3
Adj R2 0.9998 0.9998 0.9988 0.9988 0.9967
Standard Deviation 0.80441 0.88840 2.04831 2.04831 3.47165
PRESS
R2 PRESS
108.527
0.9973
23.6185
0.9994
69.9052
0.9982
69.9052
0.9982
242.027
0.9939
Forward-AIC
selection
Selected Parameter C1, C2, C7C1, C2, C6C1, C2, C5C1, C2, C3, C4C1, C2, C3
AIC
Adj R2
60.54
0.9986
60.72
0.9985
62.45
0.9983
63.08
0.9989
70.02
0.9966
Standard Deviation 2.28281 2.30143 2.48967 1.96275 3.51241
PRESS
R2 PRESS
164.364
0.9959
94.5059
0.9976
84.1880
0.9979
218.838
0.9945
245.027
0.9938
Forward-SBC
selection
Selected Parameter C1, C2, C3, C4, C6, C7C1, C2, C3, C4, C5, C6C1, C2, C3, C4, C5C1, C2, C3, C4C1, C2, C3
SBC
Adj R2
36.52
0.9998
37.54
0.9998
53.81
0.9989
53.07
0.9989
64.94
0.9966
Standard Deviation 0.88009 0.92202 1.96612 1.96275 3.51241
PRESS
R2 PRESS
193.525
0.9951
33.4853
0.9992
613.412
0.9846
218.838
0.9945
245.027
0.9938
Table 4.

Results of statistic by model selection method (Chupungryeong)

Degree
Method
7th 6th 5th 4th 3rd
Stepwise
selection
Selected Parameter C2, C5C2, C5C2, C5C1, C3, C4C1, C2, C3
Adj R2 0.9985 0.9985 0.9985 0.9987 0.9969
Standard Deviation 2.39116 2.39116 2.39116 2.21150 3.41102
PRESS
R2 PRESS
82.4357
0.9980
82.4357
0.9980
82.4357
0.9980
172.812
0.9958
184.392
0.9955
Forward
selection
Selected Parameter C1, C2, C5C1, C2, C5C1, C2, C5C1, C2, C3, C4C1, C2, C3
Adj R2 0.9984 0.9984 0.9984 0.9985 0.9969
Standard Deviation 2.45995 2.45995 2.45995 2.36371 3.41102
PRESS
R2 PRESS
124.070
0.9970
124.070
0.9970
124.070
0.9970
371.360
0.9910
184.392
0.9955
Backward
elimination
Selected Parameter C2, C3, C4, C5, C6C2, C3, C4, C5, C6C1, C3, C4C1, C3, C4C1, C2, C3
Adj R2 0.9997 0.9997 0.9987 0.9987 0.9969
Standard Deviation 1.09126 1.09126 2.21150 2.21150 3.41102
PRESS
R2 PRESS
88.1261
0.9979
88.1261
0.9979
172.812
0.9958
172.812
0.9958
184.392
0.9955
Forward-AIC
selection
Selected Parameter C1, C2, C5C1, C2, C5C1, C2, C5C1, C2, C4C1, C2, C3
AIC
Adj R2
62.18
0.9984
62.18
0.9984
62.18
0.9984
64.43
0.9980
69.37
0.9969
Standard Deviation 2.45995 2.45995 2.45995 2.72473 3.41102
PRESS
R2 PRESS
124.070
0.9970
124.070
0.9970
124.070
0.9970
99.0669
0.9976
184.392
0.9955
Forward-SBC
selection
Selected Parameter C1, C2, C3, C4, C5, C7C1, C2, C3, C4, C5, C6C1, C2, C3, C4, C5C1, C2, C3, C4C1, C2, C3
SBC
Adj R2
43.44
0.9996
42.80
0.9996
53.59
0.9990
57.16
0.9985
64.30
0.9969
Standard Deviation 1.20551 1.17085 1.94696 2.36371 3.41102
PRESS
R2 PRESS
539.956
0.9869
313.645
0.9924
386.694
0.9906
371.360
0.9910
184.392
0.9955
Table 5.

Results of statistic by model selection method (Mungyeong)

Degree
Method
7th 6th 5th 4th 3rd
Stepwise
selection
Selected Parameter C2, C5C2, C5C2, C5C2, C4C1, C2, C3
Adj R2 0.9990 0.9990 0.9990 0.9990 0.9983
Standard Deviation 1.95343 1.95343 1.95343 1.98286 2.54074
PRESS
R2 PRESS
133.316
0.9968
133.316
0.9968
133.316
0.9968
53.3478
0.9987
91.1219
0.9978
Forward
selection
Selected Parameter C1, C2, C5C1, C2, C5C1, C2, C5C1, C2, C4C1, C2, C3
Adj R2 0.9990 0.9990 0.9990 0.9990 0.9983
Standard Deviation 1.98221 1.98221 1.98221 1.99927 2.54074
PRESS
R2 PRESS
149.991
0.9964
149.991
0.9964
149.991
0.9964
69.8592
0.9983
91.1219
0.9978
Backward
elimination
Selected Parameter C2, C3, C4, C5, C6C2, C3, C4, C5, C6C1, C2, C3, C4, C5C2, C4C1, C2, C3
Adj R2 0.9999 0.9999 0.9995 0.9990 0.9983
Standard Deviation 0.61647 0.61647 1.40066 1.98286 2.54074
PRESS
R2 PRESS
50.0142
0.9988
50.0142
0.9988
239.807
0.9943
53.3478
0.9987
91.1219
0.9978
Forward-AIC
selection
Selected Parameter C1, C2, C5, C6, C7C1, C2, C4, C5, C6C1, C2, C5C1, C2, C4C1, C2, C3
AIC
Adj R2
50.60
0.9999
56.38
0.9998
57.43
0.9990
57.62
0.9990
62.89
0.9983
Standard Deviation 0.72915 0.94818 1.98221 1.99927 2.54074
PRESS
R2 PRESS
54.2821
0.9987
54.7225
0.9987
149.991
0.9964
69.8592
0.9983
91.1219
0.9978
Forward-SBC
selection
Selected Parameter C1, C2, C3, C4, C5, C6, C7C1, C2, C3, C4, C5, C6C1, C2, C3, C4, C5C1, C2, C4C1, C2, C3
SBC
Adj R2
31.68
0.9999
30.53
0.9999
46.35
0.9995
52.55
0.9990
57.82
0.9983
Standard Deviation 0.70816 0.67045 1.40066 1.99927 2.54074
PRESS
R2 PRESS
1,143.94
0.9729
137.911
0.9967
239.807
0.9943
69.8592
0.9983
91.1219
0.9978
Table 6.

Results of statistic by model selection method (Daegu)

Degree
Method
7th 6th 5th 4th 3rd
Stepwise
selection
Selected Parameter C1, C2, C6C1, C2, C6C2, C5C2, C4C1, C2, C3
Adj R2 0.9992 0.9992 0.9992 0.9989 0.9979
Standard Deviation 1.71962 1.71962 1.76251 2.05428 2.81086
PRESS
R2 PRESS
101.660
0.9975
101.660
0.9975
54.0051
0.9987
64.8272
0.9984
157.076
0.9961
Forward
selection
Selected Parameter C1, C2, C6C1, C2, C6C1, C2, C5C1, C2, C3, C4C1, C2, C3
Adj R2 0.99920 0.9992 0.9992 0.9993 0.9979
Standard Deviation 1.71962 1.71962 1.77099 1.61397 2.81086
PRESS
R2 PRESS
101.660
0.9975
101.660
0.9975
52.0905
0.9987
146.940
0.9964
157.076
0.9961
Backward
elimination
Selected Parameter C2, C3, C4, C6, C7C2, C3, C4, C5, C6C1, C3, C4C1, C3, C4C2, C3
Adj R2 0.9999 0.9998 0.9994 0.9994 0.9974
Standard Deviation 0.67842 0.80728 1.51163 1.51163 3.11859
PRESS
R2 PRESS
16.9874
0.9996
48.8445
0.9988
67.2835
0.9983
67.2835
0.9983
217.146
0.9947
Forward-AIC
selection
Selected Parameter C1, C2, C6C1, C2, C6C1, C2, C5C1, C2, C3, C4C1, C2, C3
AIC
Adj R2
54.31
0.9992
54.31
0.9992
54.95
0.9992
58.78
0.9993
65.12
0.9979
Standard Deviation 1.71962 1.71962 1.77099 1.61397 2.81086
PRESS
R2 PRESS
101.660
0.9975
101.660
0.9975
52.0905
0.9987
146.940
0.9964
1157.076
0.9961
Forward-SBC
selection
Selected Parameter C1, C2, C3, C5, C6, C7C1, C2, C3, C4, C5, C6C1, C2, C3, C4, C5C1, C2, C3, C4C1, C2, C3
SBC
Adj R2
31.88
0.9999
32.62
0.9999
49.64
0.9993
48.77
0.9993
60.04
0.9979
Standard Deviation 0.71281 0.73707 1.62677 1.61397 2.81086
PRESS
R2 PRESS
242.335
0.9940
13.8708
0.9997
437.883
0.9892
146.940
0.9964
157.076
0.9961

구미지점의 변수선정 결과를 살펴보면 5차 및 6차 회귀식을 대상으로 변수선정 과정을 거쳤을 때 대부분 적합도가 높은 것으로 나타났으며, 6차 회귀식을 대상으로 후진제거법을 적용하였을 때 PRESS 통계량의 값이 가장 낮아 적합도가 가장 높은 것으로 분석되었다. 그러나 후진제거법으로 선정된 모형은 최적모형이 아닌 경우가 많고 본 결과에서도 C1을 제외한 모든 변수들이 포함되어 있어 변수들이 많을수록 적합도가 높아지는 특성에 의해 가장 높은 적합도를 보인 것으로 판단된다. 일반적으로 단계선택법에 의해 선정된 모형이 적합도가 가장 높은 것으로 판단하는데 본 연구에서도 단계선택법에 의해 선정된 모형들의 PRESS 통계량이 다른 방법에 의해 선정된 모형들에 비해 비교적 양호한 결과를 나타내는 것으로 판단된다. 구미지점의 경우 5차식을 대상으로 변수선정을 하였을 때의 PRESS 통계량이 가장 낮은 것으로 분석되었으나 4차식과 6차식 또한 비슷한 PRESS 통계량을 보여주고 있으며 4~6차식 모두 해당 식의 최대 차수의 계수를 포함하고 있고 회귀계수의 선택도 간략한 결과를 보여주므로 본 연구의 목적에 부합하는 것으로 판단된다.

변수선택법의 선택 범위를 넓히기 위해 추가한 전진선택법-AIC와 전진선택법-SBC는 수정 결정계수(Adj-R2)의 앞에 AIC 및 SBC의 값을 포함시킴으로써 PRESS 통계량과 AIC 및 SBC의 값을 함께 고려하여 선택을 할 수 있게 만든 방법으로 PRESS 통계량과 동일하게 AIC와 SBC 값이 낮을수록 적합도가 높은 모형이라고 판단한다. 전진선택법-AIC의 결과를 살펴보면 전진선택법과 거의 동일한 결과가 나타났으며, 전진선택법-SBC는 후진제거법과 비슷하게 많은 변수들을 포함하여 높은 적합도를 보여주고 있으나 PRESS 통계량의 경우 전체적으로 높은 결과값을 나타내고 있어 적합도는 떨어지는 것으로 판단된다.

추풍령, 문경, 대구지점의 변수선정 결과도 구미지점과 비슷한 양상을 보이는 것으로 나타났다. 추풍령, 문경, 대구지점도 단계선택법을 이용하여 변수를 선정하였을 때 전반적으로 PRESS 통계량이 낮은 결과를 나타내어 적합도가 높은 것으로 분석되었으며, 특히 고차식을 적용한 후진제거법에서 변수들이 많이 포함되어 적합도가 높아지는 특성을 보였다. 단계선택법의 경우 비교적 변수의 개수가 적어 회귀식을 간결화시키는 목적에 부합하는 것으로 나타났고 PRESS 통계량의 값이 낮아 적합도도 높은 것으로 나타나 단계선택법을 사용하여 변수를 선정하는 방법이 최적 모형선정에 도움이 된다고 판단된다. 또한 본 연구대상 모든 지점에서 4차식과 5차식을 적용하여 단계선택법으로 계수를 선정하였을 때 4개 지점에서 모두 최대 차수의 계수를 포함한 식이 완성되었고, 전진선택법의 최적모형 선정결과를 보면 4차항까지의 모든 회귀계수 항이 포함되어 있어 회귀식의 사용에 편리함이 있으므로 설계강우량의 시간분포 회귀식의 경우 통계학적으로는 4차 회귀식까지만 고려하여도 무방한 것으로 판단할 수 있다.

4. 설계강우량 시간분포 회귀식의 결정

4.1 지점별 시간분포 회귀식의 유의성 검정

앞 장에서 R 프로그래밍을 이용하여 변수선택법으로 산정된 시간분포 회귀식에 대한 유의성 검정을 실시하였다. 구미, 추풍령, 문경 및 대구지점 등 4개 지점을 대상으로 단계선택법으로 4차~7차 회귀식을 대상으로 분산분석(Analysis of variance, ANOVA)을 이용하여 회귀계수들의 통계적 유의성을 검증하고 최적화된 회귀식을 산정하였다. 분산분석은 SSR (Regression sum of squares)과 SSE (Error sum of squares)의 합으로 SST (Total sum of squares)를 산정하고 각 회귀계수에 대한 F-통계량을 산정하는 과정을 거친다.

구미, 추풍령, 문경, 대구지점의 4차부터 7차까지 산정된 설계강우량 시간분포 회귀식의 다항식 계수를 이용하여 분산분석(F-검정)을 실시하였다. 앞 장에서 수행한 단계선택법 과정과 동일하게 예측변수가 존재하지 않는 상황에서 예측변수를 하나씩 추가하고 제거하는 과정을 반복하는 방법으로 변수선정 과정을 진행하였고 예측변수를 추가하거나 제거하기 위한 유의수준은 앞장의 단계선택법 과정과 동일하게 α=0.15를 적용하여 계수의 가설검정을 실시하였다. 분산분석을 이용한 변수선정 과정은 반복되는 과정이 많아 생략하였고 각 차수별로 선정된 회귀계수를 대상으로 분산분석을 이용하여 통계적 유의성을 검정하였다(Tables 7~10). 분산분석을 이용한 지점별 회귀계수의 유의성 검정결과 선정된 회귀계수들이 회귀식에서 차지하는 기여도가 99% 이상인 것으로 분석되었으며, 나머지 선정되지 못한 계수들의 기여도는 0.2% 이하로 나타나 선정된 회귀식이 통계적으로 적합도가 높다고 판단된다. 그리고 C1, C2 등 저차항의 계수들이 회귀식에 대한 기여도가 대부분인 것으로 분석되었으며, 그에 비해 고차항의 계수들은 비교적 기여도가 낮은 것으로 나타났다.

Table 7.

ANOVA of 7th-order regression equation (Gumi)

Parameter Degree of Freedom Seq Sum of Squares Contribution Adj Sum of Squares Adj Mean Squares F-statistic P-value
C1 1 39029.8 98.22% 45.6 45.6 8.75 0.018216
C2 1 311.1 0.78% 625.7 625.7 120.06 4.2726E-06
C7 1 354.1 0.89% 354.1 354.1 67.95 3.5187E-05
Residual 8 41.7 0.10% 41.7 5.2 - -
Total 11 39736.7 100.00% - - - -
Table 8.

ANOVA of 7th-order regression equation (Chupungryeong)

Parameter Degree of Freedom Seq Sum of Squares Contribution Adj Sum of Squares Adj Mean Squares F-statistic P-value
C2 1 39514.2 96.02% 12106.7 12106.7 2117.42 5.4101E-12
C5 1 1586.8 3.86% 1586.8 1586.8 277.52 4.5229E-08
Residual 9 51.5 0.13% 51.5 5.7 - -
Total 11 41152.4 100.00% - - - -
Table 9.

ANOVA of 7th-order regression equation (Mungyeong)

Parameter Degree of Freedom Seq Sum of Squares Contribution Adj Sum of Squares Adj Mean Squares F-statistic P-value
C2 1 40206.9 95.42% 13017.4 13017.4 3411.38 6.3681E-13
C5 1 1893.8 4.49% 1893.8 1893.8 496.31 3.4999E-09
Residual 9 34.3 0.08% 34.3 3.8 - -
Total 11 42135.1 100.00% - - - -
Table 10.

ANOVA of 7th-order regression equation (Daegu)

Parameter Degree of Freedom Seq Sum of Squares Contribution Adj Sum of Squares Adj Mean Squares F-statistic P-value
C1 1 39937.2 98.18% 17.3 17.3 5.85 0.041999
C2 1 285.2 0.70% 676.4 676.4 228.73 3.6156E-07
C6 1 430.0 1.06% 430.0 430.0 145.42 2.0650E-06
Residual 8 23.7 0.06% 23.7 3.0 - -
Total 11 40676.1 100.00% - - - -

4.2 설계강우량 시간분포 회귀식의 결정

본 연구를 통하여 R 프로그래밍을 이용하여 단계선택법으로 선정한 회귀계수와 분산분석을 이용하여 선정한 회귀계수들이 동일한 결과를 보인 것으로 나타나 분석 결과를 이용하여 각 지점의 4차부터 7차까지 간결화 시킨 시간분포 회귀식을 결정하였다(Tables 11~14). 통계적 유의성 검정을 통해 결정된 시간분포 회귀식을 살펴보면 4차과 5차식의 최대 차수의 계수들이 포함되어 있는 것으로 나타났고 6차식과 7차식은 지점에 따라서 최대 차수의 계수들이 포함되지 않는 식들도 존재하는 것으로 나타나 4차 회귀식을 사용하여도 통계적으로는 무방한 것으로 판단된다.

Table 11.

Determination of regression equation (Gumi)

Max. Degree Recommended Regression Equation
4th order Y=C2X2+C4X4
5th order Y=C2X2+C5X5
6th order Y=C1X+C2X2+C6X6
7th order Y=C1X+C2X2+C7X7
Table 12.

Determination of regression equation (Chupungryeong)

Max. Degree Recommended Regression Equation
4th order Y=C1X+C3X3+C4X4
5th order Y=C2X2+C5X5
6th order Y=C2X2+C5X5
7th order Y=C2X2+C5X5
Table 13.

Determination of regression equation (Mungyeong)

Max. Degree Recommended Regression Equation
4th order Y=C2X2+C4X4
5th order Y=C2X2+C5X5
6th order Y=C2X2+C5X5
7th order Y=C2X2+C5X5
Table 14.

Determination of regression equation (Daegu)

Max. Degree Recommended Regression Equation
4th order Y=C2X2+C4X4
5th order Y=C2X2+C5X5
6th order Y=C1X+C2X2+C6X6
7th order Y=C1X+C2X2+C6X6

5. 결 론

본 연구에서는 Huff 4분위 방법의 누가우량백분율을 이용하여 설계강우량의 시간분포 회귀식을 추정하고 변수선택법을 이용하여 간결한 시간분포 회귀식을 산정하였다. 변수선택 방법으로는 전방선택법, 후방제거법, 단계선택법을 사용하였으며 변수선택법 결과의 유의성 검정을 위한 p-값의 판단을 위하여 변수선택법에 따라 합리적인 유의수준을 적용하여 회귀계수의 가설검정을 실시하였다. 이상의 연구결과를 요약하면 다음과 같다.

1) 현재 실무에서는 강우의 시간분포를 위해 Huff 4분위 방법을 보편적으로 사용하고 있으며, 최빈분위 중 3분위를 안전측으로 채택하여 사용하고 있다. 본 연구에서는 “확률강우량도 개선 및 보완연구”(MLTMA, 2011)에서 제시한 구미, 추풍령, 문경, 대구지점의 무차원 누가곡선을 이용하여 Huff 방법의 시간분포 회귀식을 추정하였다.

2) 추정된 시간분포 회귀식에 대하여 R 프로그래밍을 이용한 변수선택법을 통해 최적변수를 선정하였고 분산분석을 통해 얻어진 회귀계수들의 통계적 유의성 검정을 실시하였으며, 그 결과 간략화된 시간분포 회귀식을 제시하였다.

3) 통계 프로그램 및 분산분석을 통한 유의성 검정 결과, 최대 차수로 4차식, 5차식을 적용하여 단계선택법으로 변수를 선정하였을 때 4개 지점에서 모두 최대 차수의 계수를 포함한 식이 완성되었고, 전진선택법의 최적모형 선정결과를 보면 4차항까지의 모든 회귀계수 항이 포함되어 있어 회귀식의 사용에 편리함이 있으므로 설계강우량의 시간분포 회귀식의 경우 통계학적으로는 4차 회귀식까지만 고려하여도 무방한 것으로 판단된다.

4) 본 연구에서는 변수선택법을 이용하여 통계 모델링에서 간결성의 원리(Principle of Modeling Parsimony)에 따라 설계강우량 시간분포 회귀식을 간결하게 산정하였으며, 분산분석을 통한 검증을 실시하였다. 그 결과 변수선택법 중 전방선택법과 후방제거법의 장점을 모두 가지고 있는 단계선택법을 이용하여 회귀계수를 결정하는 방법이 가장 적합한 것으로 판단되며, 추후 전국의 다양한 지점의 적용을 통한 추가적인 검증이 필요하다고 사료된다.

Acknowledgements

이 연구는 금오공과대학교 대학 학술연구비로 지원되었음(2019년).

Conflicts of Interest

The authors declare no conflict of interest.

References

1
Allen, D.M. (1971). The prediction sum of squares as a criterion for selecting predictor variables. Technical Report no.23, Department of Statistics, University of Kentucky, KY, U.S.
2
Draper, N.R., and Smith, H. (1981). Applied regression analysis. 2nd edition, John Wiley & Sons, NY, U.S.
3
Huff, F.A. (1967). "Time distribution of rainfall in heavy storms." Water Resources Research, Vol. 3, No. 4, pp. 1007-1019. 10.1029/WR003i004p01007
4
Jang, S.H., Yoon, J.Y., and Yoon, Y.N. (2006a). "A study on the improvement of Huff's method in Korea: I. Review of applicability of Huff's method in Korea." Journal of Korea Water Resources Association, Vol. 39, No. 9, pp. 767-777. 10.3741/JKWRA.2006.39.9.767
5
Jang, S.H., Yoon, J.Y., and Yoon, Y.N. (2006b). "A study on the Improvement of Huff's method in Korea: II. Improvement of Huff's method." Journal of Korea Water Resources Association, Vol. 39, No. 9, pp. 779-786. 10.3741/JKWRA.2006.39.9.779
6
Keifer, C.J., and Chu, H.H. (1957). "Synthetic storm pattern for drainage design." Journal of the Hydraulics Division, ASCE, Vol. 83, No. HY4, pp. 1-25. 10.1061/JYCEAJ.0000104
7
Lee, J.S., and Kim, G.D. (2005). An analysis of temporal and spatial distribution of urban rainfall. Research Report, FFC04-06. Urban Flood Disaster Management Research Center.
8
Ministry of Environment (ME) (2019). Standard guidelines for flood estimation.
9
Ministry of Land, Transport and Maritime Affairs (MLTMA) (2011). Study of improvement and supplement of probability rainfall.
10
Ministry of Land, Transport and Maritime Affairs (MLTMA) (2012). Design flood calculation tips.
11
Park, C.Y., and Lee, W.H. (1980). "A study on rainfall-pattern analysis for determination of dsign flow in small watershed." Journal of Korea Association of Hydrological sciences, Vol. 14, No. 4, pp. 13-18.
12
Park, J.H., Lee, J.J., and Lee, S.H. (2018). "Statistical significance test of polynomial regression equation for Huff's quartile method of design rainfall." Journal of Korea Water Resources Association, Vol. 51, No. 3, pp. 263-272.
13
Pilgrim, D.H., and Cordery, I. (1975). "Rainfall temporal patterns for design floods." Journal of the Hydraulics Division, ASCE, Vol. 101, No. HY1, pp. 81-95. 10.1061/JYCEAJ.0004197
14
Salas, J.D., Delleur, J.W., Yevjevich, V., and Lane, W.L. (1980). Applied modeling of hydrologic time series. Water Resources Publications, CO, U.S.
15
Seo, B.H., and Kim, N.W. (1989). Analysis of temporal variations for determining the local design storms. Korea Institute of Civil Engineering and Building Technology.
16
Seo, S.D. (1965). "A study on temporal pattern of storms." Magazine of the Korean Society of Agricultural Engineers, Vol. 7, No. 2, pp. 972-977.
17
Seong., W.H., and Lee, S.C. (2001). Regression analysis, Bobmunsa.
18
Yen, B.C., and Chow, V.T. (1977). Feasibility study on research of local design storms. Report No. FHW A-RD-78-65, U.S. Department of Transportation, Federal Highway Administration, Washington, D. C., U.S.
페이지 상단으로 이동하기