A development of Bayesian Copula model for a bivariate drought frequency analysis

Jin-Young Kim; Jin-Guk Kim; Young-Hyun Cho; Hyun-Han Kwon

doi:10.3741/JKWRA.2017.50.11.745

Preview

Journal of Korea Water Resources Association. 30 November 2017. 745-758
https://doi.org/10.3741/JKWRA.2017.50.11.745

A development of Bayesian Copula model for a bivariate drought frequency analysis

이변량 가뭄빈도해석을 위한 Bayesian Copula 모델 개발

Jin-Young Kim^a

Jin-Guk Kim^b

Young-Hyun Cho^c

Hyun-Han Kwon^b^*

김 진영^a

김 진국^b

조 영현^c

권 현한^b^*

^aISAN Corporation

^bDepartment of Civil Engineering, Chonbuk National University

^cKorea Water Resources Corporation (K-water)

^a(주)이산

^b전북대학교 토목공학과

^c한국수자원공사

^{*교신저자.}^{*Corresponding Author.}

License:

ABSTRACT

The copula-based models have been successfully applied to hydrological modeling including drought frequency analysis and time series modeling. However, uncertainty estimation associated with the parameters of these model is not often properly addressed. In these context, the main purposes of this study are to develop the Bayesian inference scheme for bivariate copula functions. The main applications considered are two-fold: First, this study developed and tested an approach to copula model parameter estimation within a Bayesian framework for drought frequency analysis. The proposed modeling scheme was shown to correctly estimate model parameters and detect the underlying dependence structure of the assumed copula functions in the synthetic dataset. The model was then used to estimate the joint return period of the recent 2013~2015 drought events in the Han River watershed. The joint return period of the drought duration and drought severity was above 100 years for many of stations. The results obtained in the validation process showed that the proposed model could effectively reproduce the underlying distribution of observed extreme rainfalls as well as explicitly account for parameter uncertainty in the bivariate drought frequency analysis.

Keywords

Copula

Bayesian

Bivariate drought frequency analysis

Uncertainty analysis

Copula 함수 기반의 모형들은 가뭄빈도해석 및 수문시계열분석 등 수문학적 모델링을 위해 다각적으로 활용되고 있다. 그러나 기존 연구에서는 Copula 함수 및 주변확률분포 매개변수에 대한 불확실성을 정량적으로 평가할 수 있는 모형의 개발 사례는 국내외적으로 미진한 실정이다. 이러한 점에서 본 연구에서는 기존 Copula 모형에 Bayesian 기법을 도입하여 매개변수의 불확실성을 평가할 수 있는 이변량 가뭄빈도해석 기법을 개발하였다. 본 연구에서는 우선적으로 모의자료를 대상으로 모형의 적합성을 평가하였으며, 모형 적용결과 가정한 매개변수를 정확하게 재추정하는 것을 확인할 수 있다. 최종적으로 기 개발된 Bayesian Copula 함수 기반의 이변량 가뭄빈도해석 모형을 한강유역에 적용하여 최근 2013~2015년에 가뭄 사상을 평가하였다. 서울, 경기 및 강원 지역에서 특히 가뭄이 심한 것으로 나타났으며, 대부분의 지역에서 결합재현기간이 100년을 상회하는 것으로 평가되었다. 본 연구를 통해 제안된 모형의 검증과정과 도출된 결과를 기준으로 판단해보면 가뭄자료의 분포특성 및 자료간의 상관성을 효과적으로 재현하는데 유리할 뿐만 아니라 매개변수의 불확실성을 평가할 수 있는 장점을 확인할 수 있었다.

키워드

Copula

Bayesian

이변량 가뭄빈도분석

불확실성 분석

MAIN

1. 서 론
2. 연구방법
2.1 Copula 함수를 활용한 이변량 가뭄빈도해석
2.2 Bayesian 기법을 이용한 Copula 함수의 매개변수 추정 및 이변량 가뭄 빈도해석
3. 연구결과
3.1 대상유역
3.2 분석결과
3.2.1 가뭄 특성 인자 추출 및 확률분포형 선정
3.2.2 Bayesian Copula 함수 모형 검증
3.2.3 빈도해석 결과
4. 결 론

1. 서 론

최근 우리나라는 과거에 비해 가뭄의 발생빈도 및 강도가 지속적으로 증가하는 추세에 있다. 특히, 2013~2015년 사이의 강우량은 평년에 비해 절반 수준을 기록하는 등 기존 기상패턴과 다른 극한가뭄에 대한 심각성이 대두되고 있다. 소양강댐의 경우, 1978년에 발생한 최저 수위(151.93 EL.m) 이후 2015년 두 번째로 낮은 수위(152.25 EL.m)를 기록하는 등 가뭄으로 인해 댐 수위가 용수공급 하한선(150 EL.m)에 근접하여 전력 가동, 생활용수 공급과 같은 댐 운영에 막대한 영향을 미친것으로 조사되었다(Kim et al., 2016). 우리나라의 경우 기상학적으로 계절간 강우 편차가 심해 가뭄관리 측면에서 어려운 환경에 노출되어 있으며, 이와 더불어 지속적인 지구온난화로 인한 기상변동성 증가는 수량관리측면에서 어려움을 가중시키고 있다. 최근 가뭄의 특징은 전반적인 여름강수량의 감소로 기인하며, 건기인 봄 및 겨울철 강우량이 부족이 더해져 가뭄의 강도가 과거에 비해 크게 증가하고 있다. 이러한 가뭄의 특성을 위험도 관점에서 평가하기 위한 목적으로 확률통계학적 기반의 가뭄빈도해석이 수행되고 있다.

국내외에서는 가뭄빈도해석 시 일반적으로 이변량 가뭄빈도해석 방법이 활용되고 있다(Chun et al., 2015; Lee and Son, 2016; Yu et al., 2016). 가뭄 현상의 경우, 강도뿐만 아니라 지속기간도 매우 중요한 인자로 고려되고 있으며, 이와 같이 두 개 이상의 변량을 모두 고려해야 하는 경우, 단변량(univariate) 가뭄빈도해석 보다 다변량(multivariate)으로 가뭄 빈도해석을 수행하는 것이 더 타당하다고 알려져 있다(Shiau and Shen, 2001). 특히, 수문학적 분야에서는 변량의 극치값을 다루기 때문에 Skalr (1959)가 제시한 Copula 함수의 활용성이 증대되고 있으며, Copula 함수를 기반으로 수행된 연구가 수문학적 분야에서 다수 진행된바 있다(Fernández and Salas, 1999; Bonaccorso et al., 2003; Kim et al., 2003; Kim et al., 2006; Canclliere and Salas, 2010; Kwon and Lall, 2016). Copula 함수의 경우 주변확률분포(marginal distribution)의 선택이 자유롭다는 점과 결합확률분포(joint distribution) 추정이 용이한 장점으로 인해 이변량 가뭄빈도해석에 많이 활용되고 있으며, 매개변수 추정방법 및 표본 오차를 개선하는 등의 연구가 최근 수행되어 지고 있다(Shiau and Modarres, 2009; Shiau and Shen, 2001; Yoo et al., 2013). 그러나 이변량 가뭄빈도해석 및 Copula 함수의 불확실성을 평가하고 이를 활용한 연구는 매우 미진한 실정이다.

Copula 모형을 활용한 이변량 가뭄빈도해석은 가뭄 변량의 특성을 고려하여 주변확률분포를 독립적으로 적용하고, 이를 Copula 모형에 적용하여 결합분포 산정 후 가뭄빈도를 추정하게 된다. 일반적으로 이변량 가뭄빈도해석 시 불확실성 요인은 적은 표본으로 인한 표본 오차와 매개변수의 불확실성 등으로 요약할 수 있다. 표본 오차로 인한 불확실성은 단순히 자료 부족에 국한되지 않고, 이로 인한 주변확률분포 선정에 오류로 이어지며 전체 빈도해석 결과에 영향 또한 크다 하겠다. 매개변수의 불확실성은 이상치의 여부, 사용된 자료의 질적 특성, 사용된 분포형의 적합성 등에 따라 결정되며, 정량적으로 해석이 가능하다. 이러한 점에서 확률분포형 매개변수의 불확실성을 평가하는 연구가 상당수 진행된바 있다(Melching et al., 1987; Kuo et al., 2008; Na et al., 2014). 그러나 대부분 연구는 단변량 빈도해석 연구에 국한되어 진행되었으며, 다변량 빈도해석에 대한 불확실성 연구는 매우 제한적으로 수행되었다. 기존 단변량 빈도해석에 대한 불확실성의 경우에도 Monte-Carlo 모의를 통해 다소 경험적인 개념의 불확실성 평가가 주로 수행되었으며, 매개변수간의 상관성, 사전정보 등을 종합적으로 고려한 불확실성 분석 절차 적용은 미진한 실정이다.

이러한 점에서 본 연구에서는 이변량 가뭄빈도해석에서 가장 널리 활용되고 있는 Archimedean Copula 함수를 활용하여 연구를 진행하였으며, Bayesian 기법과 연계하여 정량적으로 매개변수의 불확실성 산정이 가능한 Bayesian Copula 기반의 이변량 가뭄빈도해석 모형을 개발하였다. 본 연구에서는 주변확률분포와 Copula 함수의 매개변수를 동시에 추정하기 위하여 주변확률분포와 주요 Archimedean Copula 함수의 우도함수(likelihood function)를 연계하여 제시하였으며, 이를 이용하여 매개변수의 사후분포(posterior distribution)를 추정하였다. 본 연구에서 제시된 방법론의 적합성을 평가하기 위하여 모의자료를 통해 모형을 검증하였으며, 최종적으로 2013~2015년도에 한강유역에서 발생한 가뭄에 대한 이변량 빈도분석을 수행하여, 실제 가뭄자료에 대한 적용특성도 검토하였다.

본 논문의 구성은 다음과 같다. 1장에서는 본 연구 내용의 전반적인 내용에 대해 서술하였으며, 2장에서는 기존 이변량 가뭄빈도해석 및 Bayesian Copula 모형에 대해 설명하였다. 3장에서는 개발된 Bayesian Copula 모형의 검증 및 실제 가뭄사상에 대한 적용 결과를 제시하였으며, 4장에서는 결론 및 향후 연구방향에 대해 서술하였다.

2. 연구방법

본 절에서는 Copula 함수를 활용한 이변량 가뭄빈도해석 이론과 본 연구에서 개발한 Bayesian Copula 함수 추정방법에 대해 상세히 수록하였다. 기존 Copula 함수 모형의 경우 국내외에서 연구가 다수가 수행되어졌으므로 핵심적인 부분만 간략히 기술하였다.

2.1 Copula 함수를 활용한 이변량 가뭄빈도해석

일반적으로 가뭄빈도해석 시 Copula 함수를 활용한 이변량 가뭄빈도해석이 대표적으로 수행되고 있다(Kwak et al., 2012). 앞서 언급한 바와 같이 가뭄의 경우 일반적으로 복합적인 인자가 동시에 고려되기 때문에, 가뭄빈도해석 시 단변량 가뭄빈도해석보다 다변량 가뭄빈도해석의 적용이 타당하다고 알려져 있다(Shiau and Shen, 2001). 이러한 점에서 국내외에서는 가뭄 지속시간(duration)과 심도(severity)를 활용한 이변량 가뭄빈도해석 연구가 활발히 진행되어 왔다. 본 연구에서는 기상학적 측면의 가뭄해석을 수행하고자 월 단위 강수량을 이용하여 Yevjevich (1967)에 의해 제안된 연속이론(run theory)으로 가뭄을 정의하였으며, 가뭄 지속시간 및 심도를 추출하였다. 연속이론에 대한 가뭄 변량에 대한 정의는 Fig. 1에 도시하였다.

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Figure_KWRA_50_11_04_F1.jpg

Fig. 1.

The identified drought duration, severity and intensity by run theory (Yoo et al., 2013)

본 연구에서는 Fig. 1에 도시된 연속이론을 기반으로 가뭄 특성인자 추출을 위해 기상청 강우관측소의 6개월 누적 월 강우자료를 활용하였으며, 정상년 강수량을 기준으로 강수의 Anomaly를 구분하고자 Eq. (1)과 같이 가뭄절단 수준을 결정하였다.

(1)

여기서, 은 6개월 누적 강우량을 의미한다. 가뭄 빈도해석에 있어 널리 활용되고 있는 Copula는 Sklar (1959)에 의해 처음 소개되었으며, 1990년대 후반을 기점으로 다양한 이론 및 방법론이 정립되어 여러 분야에 적용이 이루어지고 있다(Joe, 1997; Nelsen, 2006). Copula 함수는 두 개 이상의 변량간 의존성을 파악하는데 있어 용이한 기법이라 알려져 있으며, 특히 가뭄과 같이 복합인자가 동시에 발생하는 변량의 경우 상호 의존성이 뚜렷하기 때문에 가뭄 빈도해석 시 Copula 모형의 적용은 다양한 장점을 제공한다. 이러한 Copula 함수는 기본적으로 누적확률분포가 입력자료로 활용되어 지며, 수문학 분야에서 사용되는 변량의 경우 꼬리(tail)가 두꺼운 극치값(극대 또는 극소)값을 사용하므로 확률분포의 꼬리를 다루는데 있어 Copula 함수 활용이 타당하다고 알려져 있다(Kim et al., 2016). 본 연구에서는 Copula 함수의 적용 시 비교적 과정이 간편하고 다양한 확률분포형 적용이 가능한 Archimedean Copula 함수를 활용하였으며 본 연구에서 고려된 세 가지 Copula 함수를 Table 1에 정리하여 나타내었다.

Table 1. The Archimedean copula functions used in this study

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Table_KWRA_50_11_04_T1.jpg

Table 1과 같이 도출된 변량간 결합확률밀도 함수는 Shiau and Shen (2001)이 제시한 이변량 가뭄빈도해석을 위한 입력값으로 활용되며, 이는 Eq. (2)와 같다.

(2a)

(2b)

이때, 은 평균가뭄발생 간격이며, 는 and 일 때 결합재현기간, 는 or 를 의미한다.

2.2 Bayesian 기법을 이용한 Copula 함수의 매개변수 추정 및 이변량 가뭄 빈도해석

최근 국내외에서는 수문학적 빈도해석 시 불확실성 평가가 주요한 사항으로 인정되고 있다. 즉, 불확실성 평가를 통해 수문학적 위험도에 대한 신뢰성을 정량적으로 평가가 가능하며, 이러한 결과를 기반으로 수자원관련 계획 수립 시 다양한 목적으로 활용 가능하다. 그러나 기존 이변량 가뭄빈도해석 결과의 경우 산정된 빈도의 불확실성 구간에 대한 정량적 제시가 어려우며, 특히 자료연한이 짧은 자료를 대상으로 분석이 이루어지는 경우 해석결과에 대한 신뢰성을 판단하는데 어려운 단점이 있다. 이러한 점에서 본 연구에서는 불확실성 평가에 대표적으로 활용되는 Bayesian 기법을 도입하여 연구를 진행하였으며, 기존 Copula 모형 이론과 Bayesian 기법을 결합한 Copula 매개변수 추정기법을 개발하였다.

Bayesian 확률은 두 확률 변수의 조건부확률을 나타내는 정리로, A라는 사건이 발생할 때 확률(P(A))을 기준으로 B라는 새로운 자료의 증가에 의해서 정보가 갱신되며 최종적으로 사건이 일어날 확률(P(A|B)) 사이의 관계를 나타낸다. 여기서 P(A)는 사전확률(prior probability), P(A|B)는 사후확률(posterior probability)을 말한다(Gelman et al., 2004). Bayesian을 통한 매개변수 추정기법은 기존 방법들(최우도법, 모멘트법, 확률가중모멘트법)과는 다르게 매개변수를 확률변수로 취급한다. 즉, 매개변수가 단일 값이 아닌 확률분포의 형태로 부여되며 최종적으로 매개변수의 사후분포를 추정하는데 목적을 두며, Bayes 정리(Bayes’s rule)를 기반으로 한다.

Bayes 정리에 대한 기본적인 개념은 다음과 같다. 주어진 확률변수 와 매개변수들의 집합 가 있을 때, 두 확률변수들의 결합확률분포는 Eq. (3)과 같이 사전분포와 우도 의 곱으로 표현할 수 있다. Bayes 정리에서 매개변수 와 변량 의 조건부확률과 주변확률의 관계는 Eq. (4)와 같으며, Eq. (5)에서 좌변 는 사후분포를 나타내며 사전분포와 우도 의 곱으로 추정될 수 있다(Gelman et al., 2003).

(3)

(4)

(5)

본 연구에서 개발한 Copula 함수의 Bayesian 매개변수 추정기법의 주요 장점은 다음과 같다. 기존 연구에서 수행되는 분석절차는 각 변량의 주변확률분포를 독립적으로 산정 후 Copula 모형에 적용하여 빈도해석이 수행되어지는 반면, 본 연구에서는 이분화 되어 있던 계산 과정을 통합하여 주변확률분포와 Copula 함수가 동시에 추정된다. 본 연구에서는 가뭄 지속시간과 심도에 대한 주변확률분포는 Bayesian infor-mation criterion (BIC)를 기준으로 각각 Log-normal 분포와 Gamma 분포를 선택하였으며, 이를 각 Archimedean Copula 함수와 결합하여 결합우도함수(joint likelihood function)로 유도하면 Eqs. (6)~(8)과 같다.

(6)

(7)

(8a)

(8b)

(8c)

(8d)

여기서, 는 Clayton, 는 Frank 그리고 는 Gumbel Copula 함수를 의미한다. Eq. (6)~(8)은 앞서 제시된 Table 1의 Copula 함수와 가뭄 특성인자의 주변확률분포인 Log-normal과 Gamma 분포를 우도함수 형태로 나타낸 것이며, 본 연구에서는 제시된 식을 활용하여 각 매개변수의 불확실성 구간을 정량적으로 산정할 수 있는 모형으로 확장하였다. 본 연구에서는 Log-normal 분포 매개변수()와 Gamma 분포 매개변수(), 그리고 Copula 함수 매개변수()의 사전분포는 Eqs. (9)~(13)과 같이 부여하였다. 매개변수 와 같은 경우 음(-),양(+)의 값을 모두 고려해야하기 때문에 정규분포(Normal distribution)를 부여하였으며, 매개변수 의 경우 양(+)의 값만 고려하기 위하여 Gamma 분포를 부여하여 연구를 진행하였다. Copula 함수 매개변수 는 Copula 이론의 기본 가정에 근거하여 균등 분포(Uniform distribution)로 가정하였다.

(9)

(10)

(11)

(12)

(13)

위에서 정의된 우도함수와 매개변수들의 사전분포를 Eq. (4)에 대입하여 정리하면 Eq. (14)와 같이 나타낼 수 있으며, 이를 통해서 매개변수들의 사후분포 추정이 가능해진다.

(14)

본 연구에서는 Eq. (14)의 경우 모든 매개변수에 대한 적분을 통해 직접적으로 추정하는 것이 불가능하며, Bayesian 기법을 기반으로 한 매개변수 산정을 위해 깁스샘플링(Gibbs sampling) 기법을 활용하였으며, 각각의 매개변수에 대한 사후분포를 산정하였다(Gelman and Hill, 2006). 깁스샘플링은 이미 오래전부터 물리학 분야에서 복잡한 수식의 해를 찾기 위해서 사용되던 방법이었으나, Gelfand and Smith (1990)에 의하여 Bayesian모형에 도입되어 이후 Bayesian 통계 추정 시 가장 기본이 되는 수치해석 기법이라 할 수 있다. Markov Chain Monte Carlo (MCMC) 기법의 대표적인 방법으로서 저차원 분포로부터의 표본 생성으로 구성되기 때문에 복잡한 제한조건도 쉽게 처리할 수 있다는 장점이 있다(Geman and Geman, 1984). 깁스표본법에 대한 자세한 내용은 기존 연구문헌들을 참조할 수 있다(Kwon et al., 2008; Lee and Kwon, 2011).

본 연구에서는 모형의 수렴(convergence) 여부를 확증하기 위해서 3개의 Chain을 독립적으로 시행하여 Sampling이 효과적으로 혼합(mixing)되도록 하였으며, Trace Plot을 이용하여 Chain의 수렴 여부를 판단하였다. 최종적으로 Gelman- Rubin 통계량 검정결과를 이용하여 각 유역별 Markov Chain의 수렴 여부를 통계적으로 판단하였다.

3. 연구결과

본 연구에서는 2013~2015년도 한강유역의 가뭄을 평가하기 위해서 한강유역 내 위치한 기상청 강우관측소의 관측자료를 활용하였으며, Bayesian Copula 모형을 적용하여 이변량 가뭄빈도해석 결과를 제시하였다. 본 연구에서 수행한 방법은 다음과 같이 요약할 수 있다.

1)본 연구에서는 연속이론을 기반으로 가뭄 특성인자(지속시간, 심도)를 추출하도 연도별 가뭄 특성을 추출하였다.

2)기상청 관측소별로 도출된 가뭄 특성인자를 대상으로 Bayesian Copula 모형을 적용하여, 매개변수의 사후분포를 추정하였다.

3)최종적으로 한강유역 내 위치한 기상청 강우관측소 별 이변량 빈도해석을 수행하여 불확실성 구간과 함께 제시하였다.

3.1 대상유역

한강유역은 한반도 중심부(위도 36°30′~38°55′N, 경도 126°24′~129°02′E)에 위치하고 있으며, 유역면적은 약 26,355 km² (임진강유역 제외)로 한반도 면적의 약 23%에 해당된다. 특히 태백산맥과 소백산맥 등 높은 산맥이 두 개의 방향으로 펼쳐져 있어 같은 유역 내에서 상이한 지리적, 기후학적 특성을 보여주고 있다. 한강유역의 연평균 강우량은 약 1,253 mm이며 이 중 2/3 이상의 강우(894 mm, 연평균 강우량의 71%)가 여름철(6~9월)에 집중된다(Kim et al., 2012). Fig. 2는 본 연구에서 활용한 한강유역내 위치한 18개의 기상청 관측소를 나타내며, Table 2는 관측소별 속성정보를 나타낸다.

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Figure_KWRA_50_11_04_F2.jpg

Fig. 2.

The map showing Han-river watershed along with weather stations (red filled circle)

Table 2. Geographical characteristics of 18 weather stations operated by Korea Meteorological Adminstration (KMA)

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Table_KWRA_50_11_04_T2.jpg

3.2 분석결과

3.2.1 가뭄 특성 인자 추출 및 확률분포형 선정

본 연구에서는 앞서 언급하였듯이 한강유역 내 기상청 관측 강우자료를 6개월 누적강우량으로 변환하고, Eq. (1)을 기반으로 가뭄 특성인자(지속시간, 심도)를 추출하였으며 그 결과는 Fig. 3에 도시하였다. 본 연구에서는 Table 2에 수록된 한강유역의 강우 관측소 중 서울, 강화 관측소에 대한 결과를 대표로 도시하였다. Fig. 3의 서울, 강화 관측소의 가뭄특성 인자를 살펴보면, 2013~2015년도에 발생했던 가뭄 지속시간과 심도가 이전에 발생했던 가뭄보다 아주 극심했던 것을 확인 할 수 있다. 특히 강화관측소의 경우, 가뭄 심도가 약 1,400 mm를 보이고 있어 이전에 발생했던 강우 누적 부족량 보다 약 2~3배 정도 극심한 가뭄 사상을 보이고 있는 것을 확인 할 수 있다. Table 3에 본 연구에서 활용한 기상청 지점별 가뭄특성인자를 정량적으로 제시하였으며, 분석결과 대부분의 관측소에서 2013~2015년도에 발생한 극한가뭄으로 분류될 수 있다. 예를 들어 속초 관측소의 경우 이전에 가장 극심했던 가뭄특성 인자는 지속기간 22개월, 심도 670.6 mm이고, 현재 발생한 가뭄은 이에 상응하는 지속기간 19개월, 가뭄 심도는 655.6 mm로 도출되었다. 즉, 서울, 이천, 수원, 강화, 인제, 홍천 관측소는 최근 발생한 가뭄이 관측 이래 가장 극심한 가뭄인 것이며, 다른 관측소의 경우 이전에 발생했던 가뭄에 상응하는 가뭄 패턴을 보이고 있는 것이다.

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Figure_KWRA_50_11_04_F3.jpg

Fig. 3.

The extracted drought variables at Seoul and Ganghwa station

본 연구에서는 도출된 가뭄 특성인자에 대상으로, 한강유역 전반의 평균적인 특성을 확인하고자 Thiessen 망을 산정하여 그 결과를 Figs. 4 and 5에 도시하였다. 한강유역은 전반적으로 가뭄 지속시간 및 심도가 이전 1974년에 발생했던 가뭄보다 지속시간이 길고, 강우누적부족량 역시 크게 부족했던 것을 보여주고 있다. 이는 Table 3의 결과를 살펴보면 관측소 별로 현재 발생한 가뭄이 아주 극심하여, 한강유역 전반의 평균적인 특성 역시 그대로 보여지는 결과를 나타내고 있으며, Fig. 5에서 “빨간별”은 2013~2015년의 가뭄상태를 의미한다.

Table 3. Information on the gauging stations used in this study and the basic statistics for the drought characteristics. The values in parenthesis represent the maximum duration and severity calculated from the 2013~2015 drought

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Table_KWRA_50_11_04_T3.jpg

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Figure_KWRA_50_11_04_F4.jpg

Fig. 4.

Drought variables used in this study. The above panel indicates drought duration and the bottom panel indicates drought severity (-) during the duration

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Figure_KWRA_50_11_04_F5.jpg

Fig. 5.

Scatter plot of duration and severity based on observed precipitation anomalies from 1974 to 2015. The symbol “red star” indicates current drought state

가뭄 지속시간과 심도의 적합한 확률분포형을 선택하고자, 본 연구에서는 BIC를 기반으로 연구를 진행하였다. 일반적으로 우도만을 가지고 최적분포형을 선택하는 경우 모분포의 자유도가 후보모델의 자유도보다 낮은 경우 잘못된 모분포를 선택할 확률이 높은 단점이 있다(Akaike, 1974). 따라서 본 연구에서는 우도, 매개변수 개수, 자료 수 등이 적절히 고려되는 BIC를 활용하였으며, 최소의 BIC값을 갖는 확률분포형을 가장 적합한 분포형으로 선택하였다. BIC는 자료가 해당 모형에 적합한 정도를 평가하는 척도 중 하나이며, 널리 알려져 있는 Akaike information criterion (AIC)와 Deviance information criterion (DIC)와 유사한 개념이다. BIC 통계량에 대한 일반적인 식은 다음과 같다(Findley, 1991).

(15)

이때, 은 우도함수를 의미하며, n는 자료의 개수, k는 매개변수의 개수를 의미한다. BIC는 산정된 값이 작을수록 보다 적합한 모형이라고 알려져 있다. 본 연구에서 활용된 가뭄 지속시간 및 심도는 각각 Log-normal 및 Gamma 분포가 선택되어 졌으며, 누가확률밀도함수는 아래 Eqs. (16)~(17)과 같다.

(16)

(17)

이때, 는 평균, 는 분산, 는 형상 매개변수, 는 크기 매개변수를 의미하며, 는 Gamma 함수를 의미한다. 다양한 확률분포형별로 BIC를 산정한 결과는 Table 4에 제시하였으며, Fig. 6은 확률분포형의 CDF를 비교하여 도시한 결과이다. 도시된 그림을 통해 가뭄 지속시간과 심도 모두 각각의 확률분포형을 잘 따르고 있는 것을 확인 할 수 있다.

Table 4. BIC values for different marginal distributions across weather stations. The distribution with the lowest BIC is preferred

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Table_KWRA_50_11_04_T4.jpg

Table 4. BIC values for different marginal distributions across weather stations. The distribution with the lowest BIC is preferred (Continue)

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Table_KWRA_50_11_04_T4_1.jpg

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Figure_KWRA_50_11_04_F6.jpg

Fig. 6.

A comparison of CDFs between empirical and theoretical CDFs of the drought duration(i.e. Log-normal distribution, (a) and (c)) and the drought severity(i.e. Gamma distribution, (b) and (d)) for 108 and 201 stations as representative

3.2.2 Bayesian Copula 함수 모형 검증

이변량 가뭄빈도해석에 앞서 본 연구에서는 개발된 모형의 검증작업을 수행하였다. 검증 방법으로는 주변확률분포인 Log-normal 분포와 Gamma 분포, 그리고 Archimedean Copula 함수의 5개 매개변수에 대한 임의 가정 및 모의자료를 생성하였으며, 모의된 자료를 Bayesian Copula 모형에 적용하였을 때 해당 매개변수가 효과적으로 추정되는지의 여부를 확인하는 것으로 검증 작업을 수행하였다. 매개변수는 각각 Log-normal (1,0.5), Gamma (3,1), Spearman’s rank correlation coefficient () 는 0.85로 가정하였으며, 각각의 Archimedean Copula 함수 별 모의된 자료는 Fig. 7과 같다.

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Figure_KWRA_50_11_04_F7.jpg

Fig. 7.

Synthetic bivariate random variables using (a) Clayton, (b) Frank and (c) Gumbel Copula functions

Table 5. The experimental study for the three copula functions. The 95% credible intervals for the copula and marginal distribution are estimated from the posterior distributions

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Table_KWRA_50_11_04_T5.jpg

본 연구에서는 매개변수를 추정하기 위하여 MCMC 기법 중 깁스샘플링 기법을 활용하였으며, 10,000번 수행하여 8,000개는 제거하고 수렴된 2,000개의 Sample을 활용하여 각 매개변수의 사후분포를 도출하였다. 모의된 Sampling이 정상적으로 혼합(mixing) 되었는지 확인하기 위하여 3개의 Chain으로 부터 얻어진 2,000개의 Sample에 대한 Gelman- Rubin 검정 통계량을 확인하였다. 연쇄가 무한대로 진행될 때, 검정 통계량의 값이 1에 가까워지면 Chain에 의해 생성된 매개변수들이 동일한 분포로 수렴한다는 것을 나타낸다(Gelman et al., 2004). 모의된 사후분포에 대한 Gelman-Rubin 통계량 값의 대부분이 1에 매우 가까움을 확인하였으며, 이는 3,000번 이후의 모의된 Sample들이 정상적으로 수렴되었음을 나타낸다. 매개변수의 불확실성 구간을 산정한 결과는 Table 5에 제시하였다.

산정결과 가정된 5개 매개변수 모두 불확실성 구간의 50% 구간 내에 위치하고 있는 것을 확인 할 수 있었으며, 사후분포의 중앙값(median)과 비교하였을 때 다소 편의(bias)된 부분이 있지만, 이는 이변량 Copula 함수의 모형 내에서 발생하는 표본 오차라 할 수 있다. 따라서 개발된 모형의 검증 결과 해당 모형을 활용해도 무방할 것이라 판단하고 연구를 진행하였다.

3.2.3 빈도해석 결과

본 연구에서는 기존 이변량 빈도해석 기법 이론을 기반으로 매개변수의 정량적인 불확실성 평가가 가능한 모형을 개발하였으며 앞서 검증 결과를 기반으로 한강유역 내 기상청 관측소 별 가뭄빈도해석을 수행하였다. 결합확률 관점에서 이변량 가뭄빈도해석의 결합재현기간 는 단변량 가뭄빈도해석 결과의 최소, 최대값, 그리고 보다 커야하며, 다음 Eq. (18)과 같이 정리하여 나타낼 수 있다.

(18)

최근 2013~2015년 가뭄에 대한 빈도해석 결과를 불확실성 구간과 함께 Table 6에 제시하였으며, 단변량 가뭄빈도해석 결과와 비교도 수행하였으며, 한강유역 18개 관측소 모두 앞서 제시된 Eq. (18)의 관계가 성립하는 것을 확인하였다. 이때, Table 6에 제시된 값은 Bayesian Copula 모형을 통해 도출된 가뭄 빈도를 정량적으로 제시한 결과이며, 도출된 가뭄빈도해석 결과의 불확실성 구간 Quantile 50% (quantile 2.5%, quantile 97.5%) 순으로 결과를 제시하였다. 2013~2015년의 이변량 가뭄빈도해석 결과를 살펴보면, 대체적으로 100년을 초과하는 것으로 나타났으며, 일부 지점에서는 1,000년 빈도를 상회하는 극치사상으로 평가되었다. 특히, 가뭄이 가장 극심했던 강화 지역의 경우 1,000년 빈도를 크게 상회하는 것으로 평가되었으며 불확실성을 고려하더라도 최근 발생한 가뭄의 강도가 과거와는 상당히 다른 특성을 갖는 것으로 판단할 수 있다. Fig. 8은 Bayesian Copula 모형을 통해 도출된 이변량 가뭄빈도해석 결과를 도시한 결과이다. “빨간별”은 2013~ 2015년도에 발생한 가뭄 상태를 나타내며, “검은원”은 해당 관측소에서 발생했던 과거 가뭄사상을 나타낸다. 파란색 점선은 불확실성 구간의 중앙값(median)를 의미한다. 본 연구에서 개발한 Bayesian Copula 모형은 이변량 빈도해석 결과의 불확실성 구간을 각 빈도별로 정량적으로 제시할 수 있는 장점이 있다. 이러한 불확실성 구간의 제공은 해석 결과에 대한 신뢰성을 평가할 수 있는 도구로 활용이 가능하며, 더불어 가뭄대책을 수립하는데 있어서도 위험도 및 확률적 개념의 접근이 가능케 하는 장점을 제공할 수 있다.

Table 6. The univariate and joint return period and their 95% credible intervals for the 2013-2015 drought event

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Table_KWRA_50_11_04_T6.jpg

http://static.apub.kr/journalsite/sites/kwra/2017-050-11/N0200501104/images/Figure_KWRA_50_11_04_F8.jpg

Fig. 8.

The joint return periods of drought based on Bayesian Copula model for the Seoul and Ganghwa station

4. 결 론

본 연구에서는 가뭄을 평가하는데 대표적인 변량인 가뭄 지속시간과 심도를 대상으로 이변량 가뭄 빈도해석 모형을 개발하였다. 이변량 가뭄빈도해석 모형 매개변수의 불확실성을 정량적으로 평가할 수 있도록 Bayesian 모형을 기존 Copula 모형과 연계한 해석방안을 도입하였다. 개발된 모형을 이용하여 최근 2013-2015년도 가뭄에 대한 빈도해석을 수행하였다. 본 연구결과를 통해 도출된 결과는 다음과 같이 요약할 수 있다.

1)본 연구에서는 기존 Copula 모형에 Bayesian 기법을 도입하여 이변량 빈도해석 결과에 대한 불확실성을 정량적으로 평가 할 수 있는 모형을 제시하였다. 모형의 검증을 위해 본 연구에서는 기지의 주변분포와 Archimedean Copula 함수 매개변수를 이용하여 가뭄자료를 모의 발생하여 Bayesian Copula 모형을 평가하였다. 그 결과 Bayesian Copula 모형으로 산정된 매개변수는 가정한 매개변수와 모두 유사한 결과를 나타내었으며, 불확실성 구간 또한 정량적으로 산정할 수 있는 장점을 확인 할 수 있었다.

2)검증된 Bayesian Copula 모형을 기반으로 2013~2015년도 한강유역 가뭄을 평가한 결과 대부분의 관측소에서 결합재현기간이 100년 빈도를 상회하는 것으로 평가되었다. 특히, 특정 지역에서는 약 1,000년 빈도를 넘어서는 극치사상으로 평가되었으나, 추정된 빈도의 불확실성 구간 또한 매우 크게 추정된 점을 고려할 때 1,000년 이상의 빈도는 표본 오차로 인해 나타나는 사항으로 판단할 수 있다. 즉, 최근 가뭄이 과거 40년 동안 발생한 가뭄과는 심도측면에서 큰 차이를 나타낸다는 점에서 이들 가뭄사상의 재현기간은 자료부족으로 인해 과대추정 될 개연성이 크다는 의미로 평가할 수 있다. 이러한 점에서 본 연구에서 제안한 불확실성 평가 방법은 해석결과에 대한 신뢰성을 직간접으로 평가할 수 있는 도구로 활용될 수 있는 장점을 제공한다 할 수 있다.

본 연구결과에서 제시된 가뭄 빈도해석 결과의 불확실성 정량화를 통해 보다 현실적이고 신뢰성 있는 가뭄 위험도 분석이 가능할 것으로 판단되며, 향후 연구에서는 유역단위에서 지역빈도해석 개념의 다변량 가뭄빈도해석 모형으로 확장하고자 한다.

Acknowledgements

본 연구는 기상산업진흥원의 기상 See-AT 기술개발 사업의 연구비지원(KMIPA2015-6190)에 의해 수행되었습니다. 저자들은 전북대학교 방재연구센터에 소속되어 연구를 수행하였습니다.

References

Akaike, H. (1974). “A new look at the statistical model identification.” IEEE Transactions on Automatic Control, Vol. 19, No. 6, pp. 716-723.

Bonaccorse, B., Cancelliere, A., and Rossi, G. (2003). “An analytical formulation of return period of drought severity.” Vol. 17, No. 3, pp. 157-174.

Chun, S.-Y., Kim, Y.-T., and Kwon, H.-H. (2015). “Drought frequency analysis using hidden markov chain model and bivariate copula function.” Journal of Korea Water Resource Associate, Vol. 48, No. 12, pp. 969-979.

Fernández, B., and Salas, J. D. (1999). “Return period and risk of hydrologic events. I: Mathematical formulation.” Journal of Hydrologic Engineering, Vol. 4, No. 4, pp. 297-307.

Findley, D. F. (1991). “Counter examples to Parsimony and BIC.” Annals of the Institute of Statistical Mathematics, Vol. 43, No. 3, pp. 505-514.

Gelfand, A. E., and Smith, A. F. (1990). “Sampling-based approaches to calculating marginal densities.” Journal of the American Statistical Association, Vol. 85, No. 410, pp. 398-409.

Gelman, A., and Hill, J. (2006). Data analysis using regression and multilevel/hierarchical model. Cambridge University Press.

Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. B. (2003). Bayesian data analysis. CRC press, United States of America.

Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. B. (2004). Bayesian data analysis (2nd ed.). Boca Raton: Chapman and Hall/CRC.

Geman, S., and Geman, D. (1984). “Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images.” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 6, pp. 721-741.

Joe, H. (1997). Multivariate models and dependence concept. Chapman & Hall, London.

Kim, J. S., Jain, S., and Yoon, S. K. (2012). “Warm season streamflow variability in the Korean Han river basin: links with atmos-pheric teleconnections.” International Journal of Climatology, doi: 10. 1002/joc.2290.

Kim, J.-Y., So, B.-J., Kim, T.-W., and Kwon, H.-H. (2016). “A development of trivariate drought frequency analysis approach using copula function.” Journal of Korea Water Resource Associate, Vol. 49, No. 10, pp. 823-833.

Kim, T.-W., Valdés, J. B., and Yoo, C. S. (2003). “Nonparametric approach for estimating return periods of droughts in arid regions.” Journal of Hydrologic Engineering, Vol. 8, No. 5, pp. 237-246.

Kim, T.-W., Valdés, J. B., and Yoo, C. S. (2006). “Nonparametric approach for bivariate drought characterization using palmer drought index.” Journal of Hydrologic Engineering, Vol. 11, No. 2, pp. 134-143.

Kuo, J.-T., Hsu, Y.-C., Tung, Y.-K., Yeh, K.-C., and Wu, J.-D. (2008). “Dam overtopping risk assessment considering inspection program.” Stochastic Environmental Research and Risk Assessment, Vol. 22, pp. 303-313.

Kwak, J. W., Kim, D. G., Lee, J. S., and Kim, H. S. (2012). “Hydrological drought analysis using copula theory.” Journal of the Korea Society of Civil Engineers, Vol. 32, No. 3B, pp. 161-168.

Kwon, H.-H, Casey, B., and Lall, U. (2008). “Climate informed flood frequency analysis and prediction in montana using hierarchical Bayesian modeling.” Geophysical Research Letters, Vol. 35, L05404.

Kwon, H.-H., and Lall, U. (2016). “A copula-based nonstationary frequency analysis for the 2012~2015 drought in California.” Water Resources Research, Vol. 52, No. 7, pp. 5662-5675.

Lee, J.-J., and Kwon, H.-H. (2011). “Analysis on spatio-temporal pattern and regionalization of extreme rainfall data.” Journal of Korean Society of Civil Engineers, Vol. 31, No. 1B, pp. 13-20.

Lee, T. S., and Son, C. Y. (2016). “Analyzing the drought event in 2015 through statistical drought frequency analysis.” Journal of Korea Water Resource Associate, Vol. 49, No. 3, pp. 177-186.

Melching, C. S., Wenzel, H., and Yen, B. C. (1987). “Application of system reliability analysis to flood forecasting.” Application of Frequency and Risk in Water Resources, Edited by V. P. Singh, Reidel Publishing Company.

Na, B.-K., Kim, J.-Y., Kwon, H.-H., and Lim, J.-Y. (2014). “Improve-ment of hydrologic dam risk analysis model considering uncertaintyof hydrologic analysis process.” Journal of Korea Water Resource Associate, Vol. 47, No. 10, pp. 853-865.

Nelssen, R. B. (2006). “An introduction to Copula.” Springer, New York, pp. 109-115.

Shiau, J. T., and Modarres, R. (2009). “Copula-based drought severityduration-frequency analysis in Iran.” Meteorological Applacations, Vol. 16, No. 4, pp. 481-489.

Shiau, J.-T., and Shen, H. W. (2001). “Recurrence analysis of hydrologic droughts of differing severity.” Journal of Water Resources Planning and Management, Vol. 127, No. 1, pp. 30-40.

Sklar, M. (1959). Fonctions de répartition à n dimensions et leurs marges. Université Paris 8.

Yevjevich, V. (1967). “An objective approach to definitions and investigations of continental hydrologic droughts.” Hydrology Paper, No. 23, Colorado State University, Fort Collins, pp. 4-18.

Yoo, J. Y., Lee, J. H., and Kim, T. W. (2016). “Estimation of drought risk through the bivariate drought frequency analysis using copula functions.” Journal of Korea Water Resource Associate, Vol. 49, No. 3, pp. 217-225.

Yoo, J. Y., Shin, J. Y., Kim, D. K., and Kim, T.-W. (2013). “Drought risk analysis using stochastic rainfall generation model and copula functions.” Journal of Korea Water Resource Associate, Vol. 46, No. 1, pp. 425-437.

Yu, J. S., Yoo, J. Y., Lee, J.-H., and Kim, T.-W. (2016). “Estimation of drought risk through the bivariate drought frequency analysis using copula functions.” Journal of Korea Water Resource Associate, Vol. 49, No. 3, pp. 217-225.

Journal of Korea Water Resources Association ISSN:2799-8746(Print) 2799-8754(Online) 한국수자원학회 논문집

Preview

A development of Bayesian Copula model for a bivariate drought frequency analysis

ABSTRACT

MAIN

Fig. 1.

Fig. 2.

Fig. 3.

Fig. 4.

Fig. 5.

Fig. 6.

Fig. 7.

Fig. 8.

Acknowledgements

References