Development of empirical formula for imbalanced transverse dispersion coefficient data set using SMOTE

Sunmi Lee; Taewon Yoon; Inhwan Park

doi:10.3741/JKWRA.2021.54.12.1305

Preview

Research Article

Journal of Korea Water Resources Association. 31 December 2021. 1305-1316
https://doi.org/10.3741/JKWRA.2021.54.12.1305

Development of empirical formula for imbalanced transverse dispersion coefficient data set using SMOTE

SMOTE를 이용한 편중된 횡 분산계수 데이터에 대한 추정식 개발

Sunmi Lee^a

Taewon Yoon^b

Inhwan Park^c^*

이 선미^a

윤 태원^b

박 인환^c^*

^aMaster Course, Department of Civil Engineering, Seoul National University of Science and Technology, Seoul, Korea

^bUndergarduate Student, Department of Civil Engineering, Seoul National University of Science and Technology, Seoul, Korea

^cAssistant Professor, Department of Civil Engineering, Seoul National University of Science and Technology, Seoul, Korea

^a서울과학기술대학교 건설시스템공학과 석사과정

^b서울과학기술대학교 건설시스템공학과 학부과정

^c서울과학기술대학교 건설시스템공학과 조교수

^{*Corresponding Author}

ABSTRACT

In this study, a new empirical formula for 2D transverse dispersion coefficient was developed using the results of previous tracer test studies, and the performance of the formula was evaluated. Since many tracer test studies have been conducted under the conditions where the width-to-depth ratio is less than 50, the existing empirical formulas developed using these imbalanced tracer test results have limitations in applying to rivers with a width-to-depth ratio greater than 50. Therefore, in order to develop an empirical formula for transverse dispersion coefficient using the imbalanced tracer test data, the Synthetic Minority Oversampling TEchnique (SMOTE) was used to oversample new data representing the properties of the existing tracer test data. The hydraulic data and the transverse dispersion coefficients in conditions of width-to-depth ratio greater than 50 were oversampled using the SMOTE. The reliability of the oversampled data was evaluated using the ROC (Receiver Operating Characteristic) curve. The empirical formula of transverse dispersion coefficient was developed including the oversampled data, and the performance of the results were compared with the empirical formulas suggested in previous studies using R². From the comparison results, the value of R² was 0.81 for the range of W/H < 50 and 0.92 for 50 < W/H, which were improved accuracy compared to the previous studies.

Keywords

Transverse dispersion coefficient

SMOTE

Empirical formula

Imbalanced data

본 연구에서는 과거 추적자실험결과를 이용하여 2차원 횡분산계수에 대한 새로운 추정식을 개발하고 추정식을 이용한 횡 분산계수 산정결과의 정확도를 검증했다. 다수의 추적자실험이 하폭 대 수심비가 50보다 작은 조건에서 수행되었기 때문에 기존 추적자실험결과만을 이용하여 개발한 추정식은 하폭 대 수심비가 50보다 큰 조건의 하천에 적용하는데 한계를 보인다. 따라서 특정 수리조건에 편중된 횡 분산계수 자료로부터 횡 분산계수 추정식을 개발하기 위해 SMOTE (Synthetic Minority Oversampling TEchnique)를 적용하여 기존 자료의 특성을 반영한 새로운 데이터를 생성했다. SMOTE 기법으로 하폭 대 수심비가 50보다 큰 조건에 대한 수리량과 횡 분산계수 데이터를 생성하였으며, ROC (Receiver Operating Characteristic) 곡선으로부터 생성된 데이터의 신뢰성을 검증했다. 새롭게 생성된 데이터를 포함하여 횡 분산계수 추정식을 개발했고, 추정식을 이용하여 계산한 횡 분산계수의 R²(결정계수)를 계산하여 기존 연구에서 제안한 추정식과의 정확도를 비교했다. 그 결과, 본 연구에서 개발한 추정식을 이용하여 계산한 횡 분산계수의 R²가 W/H < 50인 조건에서 0.81, 50 < W/H인 조건에서 0.92를 나타내어 기존 추정식과 비교하여 향상된 정확도를 나타냈다.

키워드

횡 분산계수

SMOTE (Synthetic Minority Oversampling TEchnique)

추정식

데이터 편중

MAIN

1. 서 론
2. 이론적 배경
2.1 횡 분산계수 추정식
2.2 횡 분산계수 산정을 위한 선행 추적자실험 결과
2.3 SMOTE를 이용한 데이터 Oversampling
3. 횡 분산계수 추정식 개발
3.1 횡 분산계수의 오버샘플링
3.2 횡 분산계수 추정식 개발
3.3 횡 분산계수 추정식의 검증
4. 결 론

1. 서 론

하천의 유속구조 및 오염물질의 혼합특성에 대해 이해하는 것은 수질오염사고로부터 수환경을 보호하기 위해 매우 중요한 일이다. 자연하천에 유입된 오염물질의 혼합은 전단류에 의한 분산으로 해석할 수 있다(Fischer et al., 1979). 전단류 분산은 혼합양상에 따라 중간역, 원역 혼합으로 구분할 수 있으며, 오염물질의 연직 혼합이 완료된 이후 하폭방향으로 완전히 혼합되기 전까지의 중간역 혼합해석은 2차원 이송-분산 방정식을 적용할 수 있다. 2차원 이송-분산 방정식은 다음 식과 같다.

(1)

\frac{\partial C}{\partial t} + u \frac{\partial C}{\partial x} + v \frac{\partial C}{\partial y} = D_{L} \frac{\partial^{2} C}{\partial x^{2}} + D_{T} \frac{\partial^{2} C}{\partial y^{2}}

여기서 C는 수심적분 된 농도, $u$ , $v$ 는 각각 수심적분 된 종, 횡 방향 유속, D_L은 종 방향 분산계수, D_T는 횡 방향 분산계수이다. Eq. (1)의 종, 횡 분산계수는 전단류에 의한 오염물질의 혼합능을 파악할 수 있는 주요 매개변수이다. 종, 횡 분산계수는 하천의 흐름구조와 지형 특성에 주로 의존한다. 따라서 하천의 사행에 따른 이차류의 발달, 하안에 존재하는 사수역, 하상의 불규칙성 등 복잡한 흐름특성을 보이는 자연하천에서 종, 횡 분산계수의 결정에 많은 어려움이 있다(Seo et al., 2005).

분산계수를 결정하는 방법에는 추적자 실험을 통해 취득한 농도 자료를 이용하는 관측법(observation method)과 기본 수리량을 바탕으로 분산계수를 산정하는 추정법(prediction method)으로 크게 나눌 수 있다. 관측법으로서는 주로 모멘트법(change of moment method)이 개발되어 적용되어 왔다. 가장 간단한 모멘트법으로는 단순 모멘트법(simple moment method, SMM)으로 이는 Sayre and Chang (1968)에 의해 제안되었으며, 그 후 Krishnappan and Lau (1977), Fischer et al., 1979, Webel and Schatzmann (1984), Nokes and Wood (1988), Rutherford (1994)가 횡 분산계수를 산정하는데 이용하였다. Holley (1971)는 횡방향 유속의 영향을 고려하기 위하여 범용 모멘트법(generalized moment method, GMM)을 제안하였고 이는 Boxall et al. (2003)에 의해 사행수로의 횡 분산계수 산정에 적용된 바 있다. 횡 방향 유속뿐만 아니라 곡선좌표계를 도입하여 하천의 만곡효과를 고려할 수 있는 곡선 모멘트법(curvilinear moment method, CMM)이 Yotsukura and Sayre (1976)에 의해 제안되었고 Almquist and Holley (1985)가 실헐실 하천의 횡 분산계수 산정에 활용하였다. 모멘트법은 주로 횡 분산계수의 산정에 활용되어 왔기 때문에 이후 Baek et al. (2006)은 종, 횡 분산계수를 동시에 선정할 수 있는 2차원 추적법(2D routing procedure, 2D-RP)을 개발했다. 2D-RP는 불규칙한 하폭 및 하상을 고려할 수 없는 단점이 있어서 Baek et al. (2006) 및 Seo et al. (2005)은 자연하천에서 보다 범용적으로 추적법을 적용하기 위해 유관 개념을 도입한 2차원 유관추적법(two-dimensional stream-tube routing procedure, 2D ST-RP)법을 제시하였다(Han et al., 2017). 추정법은 전단류 분산이론에 따라 이론적으로 분산계수를 유도하는 이론식(theoretical formula)과 다수의 분산계수 산정 결과를 바탕으로 회귀분석을 통해 개발된 추정식(empirical formula)으로 분류할 수 있다. 하지만 이론식의 난해함을 경험적 방법론으로 간략화한다거나, 이론적 배경에 바탕을 둔 추정식을 개발하기도 하므로, 두 가지 방법론은 상충되기 보다는 상호 보완적인 관계에 있다(Baek and Seo, 2007).

상기 서술한 바와 같이 오염물질의 혼합예측을 위한 분산계수는 관측법과 추정법을 적용하여 결정할 수 있다. 하지만 관측법의 경우 하천에서 추적자 실험결과로부터 산정된 분산계수 자료가 매우 제한적이기 때문에 이송-분산 방정식의 해석을 위한 적용에 한계가 있다. 따라서 실무적 관점에서 오염물질 혼합예측을 위한 분산계수는 추정법에 따라 이론식과 추정식으로부터 산정할 필요가 있다. 추정법으로서 횡 혼합에 지배적인 영향을 주는 하천의 유속구조를 감안하여 개발된 이론식(Baek et al., 2006)과 하천에서 비교적 쉽게 측정이 가능한 기본 지형인자와 수리량에 근거한 추정식이 제안된 바 있다(Fischer, 1969; Yotsukura et al., 1970; Yotsukura and Sayre, 1976; Gharbi and Verrette, 1998). 그러나 이러한 이론식과 추정식은 하천의 사행특성이나 이차류 등의 영향을 적절하게 해석하지 못하고 특정 하천 자료에 의존하여 유도된 식이기 때문에 모든 하천에 범용적으로 적용이 어려운 단점을 가지고 있다. 또한, 추적자실험을 통하여 산정한 추정식은 5~20개의 데이터를 활용하여 산정했기 때문에 수리특성이 다른 하천에 적용하는 경우 정확도가 떨어지는 경향이 있다(Baek and Seo, 2007). 기존 분산계수 산정법의 한계를 극복하고자 머신러닝을 활용한 분산계수 예측 연구가 2009년부터 Noori et al. (2009)에 의해 제안되었지만, 이는 상대적으로 데이터 수가 많은 1차원 종분산계수에 적용한 것으로 분석 데이터 수가 상대적으로 부족한 2차원 분산계수산정 연구에 적용된 바 없다. 따라서 기존 연구의 한계를 보완한 2차원 분산계수 산정을 위한 연구가 필요하다.

본 연구에서는 기존 추적자 실험결과를 활용하여 2차원 횡 분산계수 추정식을 개발하였으며, 추정식 개발에 필요한 현장실험자료 부족 문제를 극복하기 위해 SMOTE (Synthetic Minority Oversampling TEchnique)기법을 활용했다. SMOTE는 편중된 자료 그룹에 대해 소수그룹으로 구분되는 자료특성을 반영한 데이터 생성 기법이다. 2차원 횡 분산계수 추정식 개발을 위해 국내외 추적자 실험자료 53개를 수집하였다. 53개의 추적자 실험 데이터를 분석하고, SMOTE를 활용하여 소수 그룹에 대한 데이터 수를 증폭시켰다. 그리고 추정식 개발에 적용하기 위해 증폭된 데이터의 신뢰성을 검증하였다. 또한 본 연구에서 개발한 추정식과 기존 연구에서 제안된 추정식을 비교하여 본 연구방법의 신뢰성을 검증하였다. Fig. 1은 상기 서술한 연구절차에 대한 흐름도를 나타낸다.

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F1.jpg

Fig. 1.

Flow chart of the research method for estimating transverse dispersion coefficient using SMOTE

2. 이론적 배경

2.1 횡 분산계수 추정식

자연하천에서 오염물의 거동에 영향을 미치는 인자는 크게 유체의 역학적 성질, 하천의 흐름 특성, 그리고 지형인자로 분류할 수 있다. 유체의 역학적 성질은 밀도, 점성계수 등이 있으며, 하천의 흐름 특성에 포함되는 인자는 유속, 전단유속, 수심 등이 있다. 마지막으로 지형인자로서 하폭, 하상형상, 사행도 등이 있다. 이러한 자연하천에서 오염물 거동에 영향을 미치는 인자와 횡 분산계수와의 관계를 수학적으로 표현하면 다음과 같다.

(2)

D_{T} = f_{1} (ρ, μ, U, U_{*}, H, W, r_{c}, S_{f}, S_{n})

여기서 $ρ$ 는 유체의 밀도, $μ$ 는 유체의 점성계수, U는 단면평균 유속, $U_{*}$ 는 마찰유속, H는 단면 평균 수심, W는 하폭, $r_{c}$ 는 곡률반경, S_f는 에너지경사, S_n는 하천의 사행도이다. Eq. (2)의 각 항들은 Buckingham $π$ 이론을 사용하여 다음 식과 같이 중요한 물리적 의미를 갖는 무차원항으로 나타낼 수 있다(Seo et al., 2005).

(3)

\frac{D_{T}}{H U_{*}} = f_{2} (\frac{U d ρ}{μ}, \frac{U}{U_{*}}, \frac{W}{H}, S_{f}, S_{n})

여기서 $\frac{U d ρ}{μ}$ 는 Reynolds수, $\frac{W}{H}$ 는 하폭 대 수심비, $\frac{U}{U_{*}}$ 는 유속 대 마찰유속의 비에 대한 무차원 변수이다. S_f의 영향은 사행도에 의한 영향보다 작고, $(\frac{U}{U_{*}})$ 에 포함시킬 수 있으므로 제외할 수 있다. 또한 자연하천에서는 주로 난류흐름이 발생하므로 Reynolds 수에 의한 영향은 미소하므로 제외할 수 있다. $(\frac{U}{U_{*}})$ 의 경우 하천 사행에 의한 이차류에 따른 에너지 손실도 내포되어 있는 것으로 판단되나 이차류에 대한 횡 분산 증가를 별도로 고려하기 위하여 사행도 (S_n)를 적용할 수 있다. 사행특성을 감안하기 위해 곡률반경 대신 사행도를 선택하였는데, 그 이유는 만곡부가 교호하는 사행하천의 경우 여러 값의 곡률 반경을 가지기 때문에 이를 종합적으로 고려할 수 있는 사행도를 선택했다(Jeon et al., 2007). 따라서 Eq. (3)에서 자연하천에서의 횡 혼합에 중요하게 영향을 미치는 무차원 인자들만 정리를 하면 다음과 같다.

(4)

\frac{D_{T}}{H U_{*}} = f (\frac{U}{U_{*}}, \frac{W}{H}, S_{n})

많은 기존의 연구들이 Eq. (4)의 무차원 수리인자를 이용하여 횡 분산계수 산정을 위한 추정식을 제안했다. Table 1은 기존 연구에서 제안한 횡 분산계수 추정식을 정리한 표이다.

Table 1.

Empirical formulas for transverse dispersion coefficient using tracer test results

Reference	Empirical Formulas
Yotsukura et al. (1968)	$\frac{D_{T}}{H U_{*}} = 0.6$
Fischer (1969)	$\frac{D_{T}}{H U_{}} = C {(\frac{U}{U_{}})}^{2} {(\frac{H}{R_{c}})}^{2}$ (In the laboratory channel, C=25)
Yotsukura and Sayre (1976)	$\frac{D_{T}}{H U_{}} = 0.4 {(\frac{U}{U_{}})}^{2} {(\frac{W}{R_{c}})}^{2}$
Yotsukura and Sayre (1976)	$\frac{D_{T}}{H U_{}} = 0.02 {(\frac{U}{U_{}})}^{2} {(\frac{W}{R_{c}})}^{2}$
Bansal (1971)	$\frac{D_{T}}{H U_{*}} = 0.002 {(\frac{W}{H})}^{1.498}$
Fischer et al. (1979)	$\frac{D_{T}}{H U_{*}} = 0.3 ～ 0.9$
Gharbi and Verrette (1998)	$D_{T} = 0.0035 [\frac{{(\frac{Q}{H})}^{1.75} {(\frac{W}{H})}^{0.25}}{D_{L}^{0.75}}] + 0.0005$
Deng et al. (2001)	$\frac{D_{T}}{H U_{}} = 0.145 + (\frac{1}{3530}) (\frac{U}{U_{}}) {(\frac{W}{H})}^{1.38}$
Jeon et al. (2007)	$\frac{D_{T}}{H U_{}} = 0.03 {(\frac{U}{U_{}})}^{0.46} {(\frac{W}{H})}^{0.3} S_{n}^{0.73}$
Baek and Seo (2013)	$\frac{D_{T}}{H U_{}} = {(77.88 \frac{U}{U_{}} \frac{H}{R_{c}})}^{2} \{1 - \exp (- \frac{1}{77.88 \frac{U}{U_{*}} \frac{H}{R_{c}}})\}$
Seo et al. (2016)	$\frac{D_{T}}{H U_{}} ~ (\frac{U}{U_{}}) (\frac{W}{R_{c}})$

2.2 횡 분산계수 산정을 위한 선행 추적자실험 결과

기존 추적자 실험결과를 이용한 횡 분산계수의 추정식 개발을 위해 26개의 국외 추적자실험 자료와 27개의 국내 추적자 실험 자료를 수집했다. 기존 추적자 실험자료를 정리한 표는 부록에 수록하였으며, 이 중 10개의 데이터(No. 42~51)는 자연하천이 아닌 실험수로, 2개의 데이터(No. 52~53)는 실규모 사행수로에서 실험한 연구 결과이다.

Appendix 1에서 무차원 횡 분산계수( $D_{T} / H U_{*}$ )와 Eq. (4)에서 제시한 무차원 수리인자의 관계를 Fig. 2에 도시하였다. $D_{T} / H U_{*}$ 와 무차원 변수들의 관계를 보면, 비록 데이터의 산포도는 크지만 S_n, $W / H$ 그리고 $U / U_{*}$ 의 증가에 따라 $D_{T} / H U_{*}$ 가 상승하는 경향을 보이고 있다. $D_{T} / H U_{*}$ 는 0.16~0.96의 분포를 보이며, 이중 자연하천에 대한 $D_{T} / H U_{*}$ 의 범위는 0.22~0.96, 실험수로에 대해서는 0.16~0.70의 범위를 나타내어 자연하천과 실험수로에 대한 값의 차이가 크진 않았다. $U / U_{*}$ 의 데이터 범위도 자연하천과 실험수로에서 각각 3.7~23.9, 9.5~21.4의 범위를 보여 수로 규모에 의한 차이가 크지 않았으나, $W / H$ 의 경우에는 자연하천에서 15.4~169.5, 실험수로에서 0.1~11.7의 범위를 나타내어 두 데이터 그룹의 차이가 나타났다. S_n은 자연하천과 실험수로에서 각각 1~2.38, 1.32~1.70의 범위를 보였는데 1~1.5의 데이터가 전체의 77%를 차지하여 데이터의 활용범위가 제한적이었다. 따라서 데이터의 분포가 고르게 나타나는 $W / H$ 와 $U / U_{*}$ 를 $D_{T} / H U_{*}$ 의 추정식 개발에 활용했다.

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F2.jpg

Fig. 2.

Relations between the dimensionless transverse dispersion coefficient and the hydraulic parameters

2.3 SMOTE를 이용한 데이터 Oversampling

편향된 데이터 세트를 학습함에 따라 발생하는 예측 성능 저하 문제를 해결하기 위해 부족한 데이터를 생성하는 오버샘플링(oversampling) 기법을 적용할 수 있다(Chawla et al., 2002; Douzas et al., 2018). 오버샘플링 기법은 학습데이터 세트의 균형을 맞추기 위해 소수그룹(minority class sample)의 샘플 수를 다수그룹(majority class sample) 수준으로 증폭시켜 학습에 필요한 충분한 데이터를 확보하는 기법이다(Zhu et al., 2017). 오버샘플링 기법에는 K 근접이웃 이론을 기반으로 하는 SMOTE (Synthetic Minority Oversampling TEchnique)와 샘플 간 거리에 따라 가중치를 두어 새로운 샘플을 합성하는 MWMOTE (Member Weighted Minority Oversampling TEchnique) 기법이 있다(Chawla et al., 2002; Barus et al., 2014). 이중 SMOTE 기법은 데이터 과적합 문제를 완화할 수 있는 방식으로 가장 많이 사용되고 있는 기법이다(Nitesh, 2002; Mahamud et al., 2016). 이에 따라 SMOTE 기법은 편향된 관측데이터 보간을 통해 홍수 예측모델의 정확도 향상을 위해 활용된 바 있다(Wu et al., 2020; Snieder et al., 2021).

본 연구에서 사용하는 횡 분산계수 데이터 세트는 전체 샘플 수가 적고 $W / H <$ 50 조건에 치우쳐 있기 때문에 오버샘플링 기법 중 SMOTE를 사용하여 데이터를 증폭시켰다. SMOTE에 의한 소수그룹 샘플의 데이터 합성은 K 근접이웃 이론(K- Nearest Neighbor, KNN)을 기반으로 한다(Fig. 3). SMOTE는 KNN기법에 따라 소수그룹 내 한 표본에 가장 가까운 K개의 이웃을 연결하여 소수그룹의 데이터 특성을 따르는 합성샘플(synthetic sample)을 생성한다. KNN 기법은 우선 소수그룹에서 기준샘플을 랜덤으로 선택하여(Fig. 3에서 $x_{1}$ ) 기준샘플로부터 유클리드 거리가 가장 가까운 K개의 샘플(Fig. 3에서 $x_{2} ~ x_{6}$ )을 찾는다. K개의 샘플 중에서 무작위로 하나의 샘플을 선택하는데 그 샘플을 KNN 샘플이라고 한다. 기준샘플과 KNN 샘플 간 거리에 0~1사이에 생성된 난수를 곱하여 두 샘플을 잇는 선을 따라 합성샘플을 생성한다. Fig. 3에서 KNN 샘플로 $x_{2}$ 가 선택되면 $x_{1}$ 과 $x_{2}$ 사이의 거리에 무작위 난수를 곱하여 합성한 새로운 샘플인 $e$ 가 생성된다. 이러한 과정을 반복하여 소수그룹의 샘플 수가 다수그룹의 샘플 수와 같아지도록 데이터를 증폭(oversampling)한다.

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F3.jpg

Fig. 3.

Conceptual diagram of the K-Nearest Neighbors technique for data oversampling

SMOTE를 통해 합성한 소수 샘플의 활용을 위해 신뢰성 검증이 필요하다. 일반적으로 머신러닝 알고리즘의 성능은 예측 정확도를 사용하여 평가된다. 그러나 데이터가 불균형적이거나 그 수가 현저히 작을 경우 그 방법은 적절하지 않다. 따라서 Fig. 4의 ROC (Receiver Operating Characteristic) 곡선을 사용하여 판별 모형의 성능을 평가한다(Swets, 1988). ROC 곡선은 민감도와 특이도가 어떤 관계에 있는지 표현한 그래프이다. FPR (False Positive Rate)와 TPR (True Positive Rate)은 ROC 곡선에서 각각 x, y 축에 표시되는 값이다. 여기서 Positive는 판단자가 ‘그렇다’라고 판별했다는 의미이고, True와 False는 각각 ‘판단을 올바르게 했다’와 ‘판단을 올바르지 않게 했다’는 의미를 갖는다. 다시 말해 TP (True Positive)는 예측 결과가 ‘그렇다’고 판단한 것이고 실제로 올바른 값을 판단한 것이며, FP (False Positive)는 ‘그렇다’고 판단했지만 실제로 올바른 값을 판단하지 못하여 잘못 판단한 것을 의미한다. 이는 Fig. 5의 오차행렬(Confusion Matrix)에서 쉽게 이해할 수 있다. 이때 문턱값(threshold)를 어떻게 설정하느냐에 따라 TPR과 FPR이 달라질 수 있다. 예를 들어 문턱값이 낮은 경우 TPR과 FPR이 모두 높아지고 문턱값이 높은 경우 TPR과 FPR이 모두 낮아지게 된다. 즉, 문턱값이 변함에 따라서 TPR과 FPR이 비례적으로 증가하거나 감소한다. 따라서 모형의 성능평가를 위해 문턱값의 변화에 관계없는 ROC 곡선의 면적을 계산하여 모델의 전반적인 성능을 확인한다.

Fig. 4의 AUC (Area Under the Curve)는 ROC 곡선의 면적을 계산한 값으로서 분류 성능 지표로 사용된다(Bradley, 1997). AUC의 값은 문턱값에 대해 변화하는 ROC 곡선과 달리 오버샘플링 된 데이터의 신뢰성 검토에 있어 문턱값의 영향을 받지 않는다. 이때 ROC 곡선은 낮은 FPR에 대해 1에 가까운 높은 TPR을 보일 때 자료가 신뢰성을 갖는 것으로 평가한다. 따라서 ROC 곡선이 직사각형에 가까운 곡선이 되어 AUC의 값이 1에 가까워지면 신뢰성 있는 데이터가 생성되었다고 판단할 수 있게 된다.

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F4.jpg

Fig. 4.

Conceptual diagram of the ROC curve and the AUC

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F5.jpg

Fig. 5.

Confusion Matrix for ROC curve

3. 횡 분산계수 추정식 개발

3.1 횡 분산계수의 오버샘플링

2차원 횡 분산계수의 추정식 개발을 위해 Appendix 1의 추적자실험 자료를 이용하였으며, 추정식의 정확도 향상을 위해 SMOTE를 사용하여 추적자실험 데이터 수를 증폭시켰다. SMOTE를 이용하여 추정식 개발에 필요한 $D_{T} / H U_{*}$ , $W / H$ , $U / U_{*}$ 의 데이터 합성을 위해 공통적 특성을 갖는 데이터 그룹을 분류해야 한다. 이를 위해 $W / H$ 의 범위에 따른 횡 분산계수 추정식의 적합도를 분석한 과거 연구(Baek and Seo, 2017)를 토대로 $W / H <$ 50, 50 $\leq W / H <$ 100, 100 $\leq W / H$ 의 세 구간으로 클래스를 분류하여 오버샘플링을 진행했다. SMOTE를 진행할 때, 학습에 필요한 훈련데이터 세트와 결과를 테스트해보는 시험 세트를 무작위로 분리한다. 이 연구에서는 훈련데이터 세트의 비율을 전체의 85%로 지정했다. 따라서 총 53개의 원 데이터 중에 85%인 45개로 오버샘플링을 진행했다. Fig. 6은 기존 데이터와 오버샘플링 된 데이터를 함께 도시한 그래프이다. $W / H <$ 50의 훈련데이터 수는 24개로 다수그룹으로 분류되었으며, 소수 그룹에 해당하는 50 $\leq W / H <$ 100, 100 $\leq W / H$ 의 데이터가 각각 12개에서 24개, 9개에서 24개로 증폭되어 전체 데이터 수는 기존의 53개 데이터에 증폭된 27개를 포함하여 80개가 되었다. $U / U_{*}$ 는 $W / H$ 의 데이터 분류 기준에 따라 다수그룹과 소수그룹으로 분류되었으며, 50 $\leq W / H <$ 100와 100 $\leq W / H$ 에 해당하는 $U / U_{*}$ 의 데이터가 증폭되었다.

Fig. 6에서 오버샘플링 된 데이터의 활용을 위해 증폭된 데이터들이 해당하는 각 소수그룹의 데이터 특성을 반영할 수 있어야 한다. 따라서 오버샘플링 된 데이터의 신뢰성을 검증하기 위해 합성 데이터 그룹에 대한 ROC 곡선을 Fig. 7에 도시하였다. 그 결과 전체 데이터에 해당하는 검증 결과의 평균을 나타내는 micro average AUC가 0.91, 각 그룹 별 데이터에 해당하는 검증 결과의 평균을 다시 그룹의 개수로 평균을 내는 macro average AUC가 0.88을 나타낸다. 보통 그룹별 불균형 데이터세트를 검증하는 데 전체 샘플의 수를 고려하는 micro average가 더 효과적인 평가지표이다(Jurafsky and Martin, 2017). 따라서 오버샘플링 된 데이터가 기존 데이터의 경향을 적절히 반영하는 것으로 판단할 수 있다.

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F6.jpg

Fig. 6.

Relations between the oversampled dimensionless transverse dispersion coefficient and the hydraulic parameters

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F7.jpg

Fig. 7.

Results of ROC curves and AUCs

3.2 횡 분산계수 추정식 개발

SMOTE를 통해 증폭된 데이터를 활용하여 $D_{T} / H U_{*}$ 에 대한 추정식을 개발했다. 추정식은 Eq. (4)와 같이 $W / H$ , $U / U_{*}$ 을 이용한 비선형다중회귀식의 형태로 결정했다.

(5)

\frac{D_{T}}{H U_{*}} = a {(\frac{W}{H})}^{b} {(\frac{U}{U_{*}})}^{c}

여기서, $a$ , $b$ , $c$ 는 회귀상수이다. Eq. (5)를 Eq. (6)와 같이 선형화한 후 파이썬(Python)에 포함 된 라이브러리인 싸이킷런(scikit-learn)을 적용했다. 싸이킷런은 최소제곱법(least squares method)을 사용하여 회귀상수를 산정하며, 전체 데이터의 70%를 훈련데이터 세트, 30%를 검증 데이터 세트로 나누어 가장 적합한 선형방정식을 찾는 알고리즘이다.

(6)

\ln (\frac{D_{T}}{H U_{*}}) = \ln (a) + b \ln (\frac{W}{H}) + c \ln (\frac{U}{U_{*}})

Appendix 1의 실험데이터와 SMOTE를 통해 오버샘플링 된 데이터를 사용하여 횡 분산계수 추정식에 대한 회귀상수를 산정하였으며, 그 결과는 Eq. (7)과 같다.

(7)

\frac{D_{T}}{H U_{*}} = 0.0703 {(\frac{W}{H})}^{0.2002} {(\frac{U}{U_{*}})}^{0.4514}

Eq. (7)의 추정식에서 $U / U_{*}$ 의 회귀상수가 $W / H$ 보다 더 크게 산정되었으며, 이는 $D_{T} / H U_{*}$ 가 $U / U_{*}$ 의 변화에 더 큰 영향을 받는다는 것을 뜻한다. Eq. (7)을 이용하여 $W / H$ 와 $U / U_{*}$ 의 변화에 따른 횡 분산계수 산정결과를 분석했다. Fig. 8은 Appendix 1의 실험데이터를 이용하여 계산한 횡 분산계수와 실험데이터를 비교한 그래프이다. Fig. 8(a)의 실선은 $U / U_{*}$ 의 평균값에 대한 횡 분산계수의 변화를 나타내며, 두 점선은 $U / U_{*}$ 의 최대, 최소값에 대한 횡 분산계수 변화를 나타낸다. 그리고 Fig. 8(b)의 실선은 $W / H$ 의 평균값을 이용한 횡 분산계수의 변화, 두 점선은 $W / H$ 의 최대, 최소값에 대한 횡 분산계수 변화를 나타낸다. 따라서 Fig. 8의 점선은 Eq. (7)을 이용하여 산정 가능한 횡 분산계수 범위를 뜻한다. 그런데 일부 실험데이터가 Eq. (7)의 추정식 산정 한계를 벗어난 결과가 나타났다. 이러한 결과는 높은 산포도를 갖는 원 데이터를 비선형회귀모형으로 나타내는 것에 한계가 발생함을 보여준다.

Fig. 8(a)의 실선과 점선의 간격으로부터 $U / U_{*}$ 의 변화에 대한 $D_{T} / H U_{*}$ 추정식의 민감도를 확인할 수 있다. 임의의 $W / H$ 에 대해 12.9 $< U / U_{*} <$ 23.9 범위 내 $D_{T} / H U_{*}$ 의 변화( $∆ D_{u}$ )는 3.7 $< U / U_{*} <$ 12.9에 대한 변화( $∆ D_{l}$ )와 유사하게 나타났다. 반면, Fig. 8(b)에서 볼 수 있듯 임의의 $U / U_{*}$ 에 대한 $D_{T} / H U_{*}$ 의 변화는 0.1 $< W / H <$ 51.7 보다 51.7 $< W / H <$ 169.5의 범위에서 더 크게 나타났다. 이러한 결과는 $W / H$ 에 대한 회귀상수가 $U / U_{*}$ 에 비해 상대적으로 작기 때문에 $W / H$ 에 대한 민감도가 평균값 이상의 값에 대해 $D_{T} / H U_{*}$ 의 변화에 큰 영향을 주지 않기 때문에 발생했다. $W / H$ 가 상대적으로 작은 소하천에서는 하천 양안이 유속구조의 변화에 미치는 영향이 중 ‧ 대하천과 비교하여 더 크다. 따라서 $W / H$ 가 평균값보다 큰 조건에서는 $W / H$ 의 변화가 유속구조의 변화에 미치는 영향이 감소하며, 오염물질의 횡 혼합 변화 또한 감소하는 것으로 판단할 수 있다. 이에 따라 본 연구에서 제안한 추정식이 $W / H$ 의 변화가 오염물질 횡 혼합의 변화를 적절히 반영하고 있음을 보여준다.

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F8.jpg

Fig. 8.

Variations of the transverse dispersion coefficients against to the non-dimensional parameters

3.3 횡 분산계수 추정식의 검증

본 연구에서 제안한 횡 분산계수 추정식의 우수성을 검증하기 위해 Table 1의 추정식 중 Appendix 1의 실험데이터를 활용 가능한 Bansal (1971), Deng et al. (2001), Jeon et al. (2007)의 계산결과와 비교했다. Fig. 9은 추정식을 이용하여 계산한 횡 분산계수와 Appendix 1의 실험데이터를 비교한 결과이다. Fig. 9에서 대각선 상에 데이터가 위치한 경우 추정식이 실험데이터를 잘 산정함을 의미하며, Bansal (1971)의 추정식은 횡 분산계수를 과대산정하는 경향이 있음을 보여준다. Deng et al. (2001)의 추정식 또한 과대산정하는 경향을 보였는데, 이 두 경험식은 $W / H$ 에 대한 회귀상수가 $U / U_{*}$ 보다 높게 산정된 특징을 갖는다. 반면, Jeon et al. (2007)은 과대산정된 결과가 거의 나타나지 않았으나 일부 실험데이터에 대해 과소산정하는 경향을 보였다. 본 연구에서 제안한 추정식의 계산결과는 과소 또는 과대산정하는 편중된 결과를 거의 보이지 않았으나 대각선 주변에 산포하는 한계를 나타냈다.

Fig. 9에서 비교한 세 추정식과 본 연구에서 제안한 추정식의 계산 정확도에 대한 정량적 분석을 수행했다. Baek and Seo (2017)은 $W / H <$ 50인 조건에서는 Bansal (1971), Deng et al. (2001)의 추정식이 적용가능하며, $W / H >$ 50인 조건에서 Jeon et al. (2007)의 추정식을 적용 가능함을 제안한 바 있다. 이에 따라 $W / H$ 의 범위를 구분하여 추정식의 계산 정확도를 비교했다. 계산 정확도 비교를 위해 다음 식과 같이 회귀식의 적합도를 나타내는 척도인 결정계수(R²)를 이용했다.

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F9.jpg

Fig. 9.

Comparisons of the transverse dispersion coefficient formulas

(8)

R^{2} = \frac{\sum_{i = 1}^{n} ({\hat{y}}_{i} - y)^{2}}{\sum_{i = 1}^{n} (y_{i} - y)^{2}}

여기서 ${\hat{y}}_{i}$ 는 추정식으로부터 계산된 횡 분산계수, $y$ 는 관측한 실험데이터의 평균 , $y_{i}$ 는 횡 분산계수 실험데이터, $n$ 은 샘플의 수이다. R²가 1에 가까울수록 추정식의 적합도가 높음을 나타낸다. Fig. 10은 $W / H <$ 50인 조건에서 본 연구와 Bansal (1971), Deng et al. (2001)의 횡 분산계수 산정 결과를 비교한 그림이다. 본 연구에서 제안한 추정식의 R²는 0.82로 계산되어 Bansal (1971), Deng et al. (2001)의 추정식보다 향상된 정확도를 나타냈다. 그리고 Fig. 11은 $W / H >$ 50인 조건에서 Jeon et al. (2007)의 횡 분산계수 산정결과와 비교한 결과이다. 그 결과, Jeon et al. (2007) 추정식의 R²는 0.91, 본 연구의 R²는 0.92로 나타나 다소 개선된 결과를 보였다. 이러한 결과는 S_n을 추정식에 반영하지 않아도 오버샘플링을 통해 추정식의 정확도를 향상시킬 수 있음을 보여준다. 또한 소수그룹의 특성을 반영한 데이터를 생성함으로써 횡 분산계수 추정값이 편중되는 현상을 완화하는 결과를 나타냈다.

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F10.jpg

Fig. 10.

R² of the proposed empirical formulas of the transverse dispersion coefficient (W /H ‹ 50)

https://cdn.apub.kr/journalsite/sites/kwra/2021-054-12/N0200541211/images/kwra_54_12_11_F11.jpg

Fig. 11.

R² of the proposed empirical formulas of the transverse dispersion coefficient (W /H › 50)

4. 결 론

본 연구에서는 하천 내 오염물질의 2차원 거동해석에 필요한 횡 분산계수 산정을 위해 무차원 수리인자를 활용한 횡 분산계수 추정식을 개발했다. 횡 분산계수의 추정식 개발을 위해 자연하천과 실험수로에서 수행된 추적자 실험결과를 분석하였으며, $W / H$ 와 $U / U_{*}$ 를 추정식 개발에 이용했다. 기존 연구에서 수집된 추적자 실험결과는 $W / H <$ 50인 조건에서 다수 수행되었으며, 다양한 수리조건에 적용 가능한 횡 분산계수 추정식 개발을 위해 50 $< W / H$ 인 데이터에 대한 보완이 필요하다. 이를 위해 SMOTE 알고리즘을 이용하여 50 $< W / H$ 에 해당하는 소수그룹에 대한 $D_{T} / H U_{*}$ , $W / H$ , $U / U_{*}$ 데이터를 오버샘플링하였으며, 전체 데이터의 약 53%에 해당하는 데이터를 생성했다. 오버샘플링 된 데이터에 대한 신뢰성 검증을 위해 ROC로부터 AUC를 계산하였으며, AUC가 0.91이 되어 새롭게 생성된 데이터가 소수그룹의 데이터 특성을 적절히 반영하고 있음을 확인했다.

오버샘플링 된 데이터와 기존 실험데이터로부터 다중선형회귀분석을 통해 횡 분산계수 추정식을 개발했다. 새로 개발된 추정식은 $W / H$ 보다 $U / U_{*}$ 에 대한 민감도가 높게 나타냈다. 특히 $W / H$ 가 기존 추적자실험데이터의 평균값인 51.7보다 큰 경우에는 $W / H$ 에 대한 민감도가 큰 폭으로 감소했다. 본 연구에서 제안한 추정식과 기존 연구의 추정식을 비교하였으며, 이때 Baek and Seo (2017)가 $W / H$ 의 범위에 따라 다른 추정식 적용이 가능함을 제안한 바와 같이 $W / H$ 의 범위를 구분하여 추정식의 R²를 비교했다. 본 연구에서 제안한 추정식의 R²는 $W / H <$ 50인 조건에서 0.81, 50 $< W / H$ 인 조건에서 0.92로 나타나 타 연구 결과보다 개선된 정확도를 보였다. 따라서 오버샘플링으로부터 소수그룹의 특성을 반영한 데이터를 생성함으로써 추정값이 다수그룹의 데이터 특성에 편중되지 않은 추정식 개발이 가능함을 알 수 있다. 또한 S_n을 고려하지 않아도 추정값의 정확도를 향상시킬 수 있음을 보였다. 하지만 Baek and Seo (2013)의 연구에서 보인 바와 같이 하천의 곡률에 대한 수리인자( $P = \frac{U}{U_{*}} \frac{H}{R_{c}}$ )가 횡 분산계수와 높은 상관관계를 나타냈기 때문에 향후 연구에서 이를 포함한 오버샘플링 및 추정식 개발 결과의 성능 검토가 필요하다.

본 연구에서는 적은 샘플을 활용한 횡 분산계수 추정식 개발의 한계를 극복하기 위해 오버샘플링을 통해 데이터를 증폭하여 새로운 추정식을 제안했다. 그러나 부족한 샘플 수로 인해 데이터 증폭에 한계가 있었으며, 이에 따라 기존식과 비교한 추정식의 정확도 향상에도 한계가 있었다. 또한 추적자 실험결과의 데이터 산포도가 크기 때문에 추정식의 정확도 향상에 한계가 있었으며, 이는 단일 회귀식으로 정확도 높은 횡 분산계수 추정식 개발에 제한이 있음을 보여준다. 따라서 향후 연구에서는 머신러닝 기법을 활용하여 선형회귀식의 한계를 보완할 수 있는 횡 분산계수의 추정식 개발이 필요하다.

Supplementary Material

kwra_20210541211_S1.pdf

Acknowledgements

본 결과물은 환경부의 재원으로 한국환경산업기술원의 미세플라스틱 측정 및 위해성평가 기술개발사업의 지원을 받아 연구되었습니다(과제번호: 2021003110003).

References

Almquist, C.W., and Holley, E.R. (1985). Transverse mixing in meandering laboratory channels with rectangular and naturally varying cross sections. Technical Report CRWR-205, University of Texas, Austin, TX, U.S.

Baek, K.O., and Seo, I.W. (2007). “Evaluating coefficient of transverse dispersion induced by shear flow.” Journal of the Korean Society of Civil Engineers B, KSCE, Vol. 27, No. 1B, pp. 21-28.

Baek, K.O., and Seo, I.W. (2013). “Empirical equation for transverse dispersion coefficient based on theoretical background in river bends.” Environmental Fluid Mechanics, Vol. 13, No. 5, pp. 465-477. 10.1007/s10652-013-9276-5

Baek, K.O., and Seo, I.W. (2017). “Estimation of transverse dispersion coefficient for two-dimensional mixing in natural streams.” Journal of Hydro-environment Research, Vol. 15, pp. 67-74. 10.1016/j.jher.2017.01.003

Baek, K.O., Seo, I.W., and Jung, S.J. (2005). “2-D mixing of instantaneous pollutants in meandering channels : II. Determination and analysis of dispersion coefficients.” Journal of the Korean Society of Civil Engineers B, KSCE, Vol. 25, No. 6B, pp. 463-471.

Baek, K.O., Seo, I.W., and Jung, S.J. (2006). “Evaluation of transverse dispersion coefficient in meandering channel from transient tracer tests.” Journal of Hydraulic Engineering, Vol. 132, No. 10, pp. 1021-1032. 10.1061/(ASCE)0733-9429(2006)132:10(1021)

Bansal, M.K. (1970). Dispersion and reaeration in natural stream. Ph. D. dissertation, Univesite de Kansas Laurence, KS, U.S.

Bansal, M.K. (1971). “Dispersion in natural streams.” Journal of the Hydraulics Division, ASCE, Vol. 97, No. 11, pp. 1867-1886. 10.1061/JYCEAJ.0003142

Barus, S., Islam, M.M., Yao,X., and Murase, K. (2014). “MWMOTE - Majority weighted minority oversampling technique for imbalanced data set learning.” IEEE Transactions on Knowledge and Data Engineering, Vol. 26, No. 2, pp. 405-425. 10.1109/TKDE.2012.232

Beltaos, S. (1980). “Transverse mixing tests in natural streams.” Journal of the Hydraulics Division, ASCE, Vol. 106, No. HY10, pp. 1607-1625. 10.1061/JYCEAJ.0005532

Beltaos, S., and Day, T.J. (1978). “A field study of longitudinal dispersion.” Canadian Journal of Civil Engineering, Vol. 5, pp. 572-585. 10.1139/l78-062

Boxall, J.B., Guymer, I., and Mariion, A. (2003). “Transverse mixing in sinuous natural open channel flows.” Journal of Hydraulic Research, IAHR, Vol. 41, No. 2, pp. 153-165. 10.1080/00221680309499958

Bradley, A.P. (1997). “The use of the area under the ROC curve in theevaluation of machine learning algorithms.” Pattern Recognition, Vol. 30, No. 7, pp. 1145-1159. 10.1016/S0031-3203(96)00142-2

Chawla, N.V., Bowyer, K.W., Hall, L.O., and Kegelmeyer, W.P. (2002). “SMOTE : Synthetic minority over-sampling technique.” Journal of Artificial Intelligence Research, Vol. 16, pp. 321-357. 10.1613/jair.953

Deng, Z., Singh, V.P., and Bengtsson, L. (2001). “Longitudinal dispersion coefficient in straight rivers.” Journal of Hydraulic Engineering, Vol. 127, No. 11, pp. 919-927. 10.1061/(ASCE)0733-9429(2001)127:11(919)

Douzas, G., Bacao, F., and Last, F. (2018). “Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE.” Information Sciences, Vol. 465, pp. 1-20. 10.1016/j.ins.2018.06.056

Engmann, J.E.O., and Kellerhals, R. (1974). “Transverse mixing in an ice-covered river.” Water Resources Research, Vol. 10, pp. 775-784. 10.1029/WR010i004p00775

Fischer, H.B. (1969). “The effect of bends on dispersion coefficients in streams.” Water Resources Research, Vol. 5, pp. 496-506. 10.1029/WR005i002p00496

Fischer, H.B. (1973). “Longitudinal dispersion and turbulent mixing in open-channel flow.” Annual Review of Fluid Mechanics, Vol. 5, pp.59-78. 10.1146/annurev.fl.05.010173.000423

Fischer, H.B., List, E.J., Koh, R.C.Y., Imberger, J., and Brooks, N.H. (1979). Mixing in inland and coastal waters. Academic Press, NY, U.S.

Gharbi, S., and Verrette, J. (1998). “Relation between longitudinal and transversal mixing coefficients in natural streams.” Journal of Hydraulic Research, IAHR, Vol. 36, No. 1, pp. 43-53. 10.1080/00221689809498376

Han, E.J., Kim, Y.D., Baek, K.O., and Seo, I.W. (2017). “Analytical and experimental study on dispersion and diffusion by tracer test.” Water for Future, Vol. 50, No. 6, pp. 58-65.

Holley, E.R. (1971). Transverse mixing in rivers. Laboratory Report, No. S-132, Delft Hydraulics Lab, Netherlands.

Holley, E.R., and Abraham, G. (1973). “Field tests on transverse mixing in rivers.” Journal of Hydraulic Division, ASCE, Vol. 99, No. HY12, pp. 313-2331. 10.1061/JYCEAJ.0003834

Holley, F.M.Jr., and Nerat, G. (1983). “Field calibration of stream-tube dispersion model.” Journal of Hydraulic Engineering, ASCE, Vol. 109, No. 11, pp. 1455-1470. 10.1061/(ASCE)0733-9429(1983)109:11(1455)

Jeon, T.M., Baek, K.O., and Seo, I.W. (2007). “Development of an empirical equation for the transverse dispersion coefficient in natural streams.” Environmental Fluid Mechanics, Vol. 7, pp. 317-329. 10.1007/s10652-007-9027-6

Jurafsky, D., and Martin J.M. (2017). Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition, 3^rd ed, Pearson Eucation, London, UK, p. 67.

Krishnappan, B.G., and Lau, Y.L. (1977). “Transverse mixing in meandering channels with varying bottom topography.” Journal of Hydraulic Research, IAHR, Vol. 15, No. 4, pp. 351-371. 10.1080/00221687709499640

Lau, Y.L., and Krishnappan, B.G. (1981). “Modeling transverse mixing in natural streams.” Journal of the Hydraulic Division, ASCE, Vol. 107, No. HY2, pp. 209-226. 10.1061/JYCEAJ.0005612

Mahamud, K.R.K., Zorkeflee, M., and Din, A.M. (2016). “Fuzzy distance-based undersampling technique for imbalanced flood data.” Proceedings of the Knowledge Management International Conference, UUM, Chiang Mai, Thailand, pp. 509-513.

Nitesh, V.C., Kevin W.B., Lawrence, O.H., and Philip, W.K. (2002). “SMOTE: synthetic minority over-sampling technique.” Journal of Artificial Intelligence Research, Vol. 16, pp. 321-357. 10.1613/jair.953

Nokes, R.I., and Wood, I.R. (1988). “Vertical and lateral turbulent dispersion: Some experimental results.” Journal of Fluid Mechanics, Vol. 187, pp. 373-394. 10.1017/S0022112088000473

Noori, R., Karbassi, A., Farokhnia, A., and Dehghani, M. (2009). “Predicting the longitudinal dispersion coefficient using support vector machine and adaptive neuro-fuzzy inference system techniques.” Environmental Engineering Science, Vol. 26, No.10, pp.1503-1510. 10.1089/ees.2008.0360

Rutherford, J.C. (1994). River mixing, John Wiley and Sons, Chichester, UK.

Sayre, W.W. (1979). “Shore-attached thermal plumes in rivers.” Modelling in rivers, Edited by Shen, H.W., Wiley-Interscience, London, UK, pp.15.1-15.44.

Sayre, W.W., and Chang, F.M. (1968) A laboratory investigation of open channel dispersion processes for dissolved, suspended, and floating dispersants. Professional Paper, No. 433-E. US Geological Survey, U.S., pp. 1-71. 10.3133/pp433E

Seo, I.W., Baek, K.O., and Jeon, T.M. (2006). “Analysis of transverse mixing in natural streams under slug tests.” Journal of Hydraulic Research, Vol. 44, No. 3, pp. 350-362. 10.1080/00221686.2006.9521687

Seo, I.W., Choi, H.J., Kim, Y.D., and Han, E.J. (2016). “Analysis of two-dimensional mixing in natural streams based on transient tracer tests.” Journal of Hydraulic Engineering, Vol. 142, No. 8, pp. 1-16. 10.1061/(ASCE)HY.1943-7900.0001118

Seo, I.W., Jeon, T.M., and Baek, K.O. (2005). “Development of empirical equation of transverse dispersion coefficient for analysis of 2-D mixing in natural streams.” Journal of the Korean Society of Civil Engineers B, KSCE, Vol. 25, No. 4B, pp. 247-255.

Shin, J., Seo, I.W., and Baek, D. (2020). “Longitudinal and transverse dispersion coefficients of 2D contaminant transport model for mixing analysis in open channels.” Journal of Hydrology, Vol. 583, pp. 1-15. 10.1016/j.jhydrol.2019.124302

Snieder, E., Abogadil, K., and Khan, U.T. (2021). “Resampling and ensemble techniques for improving ANN-based high-flow forecast accuracy.” Hydrology and Earth System Sciences, Vol. 25, pp. 2543-2566. 10.5194/hess-25-2543-2021

Swets, J.A. (1988). “Measuring the accuracy of diagnostic systems.” American Association for the Advancement of Science, Vol. 240, No. 4857, pp.1285-1293. 10.1126/science.32876153287615

Webel, G., and Schatzmann, M. (1984). “Transverse mixing in open channel flow.” Journal of Hydraulic Engineering, ASCE, Vol. 110, No. 4, pp. 423-435. 10.1061/(ASCE)0733-9429(1984)110:4(423)

Wu, Y., Ding, Y., and Feng, J. (2020). “SMOTE-Boost-based sparse Bayesian model for flood prediction.” EURASIP Journal on Wireless Communications and Networking, Vol. 78, pp.1-12. 10.1186/s13638-020-01689-2

Yotsukura, N., and Cobb, E.D. (1972). Transverse diffusion of solutes in natural streams, Professional Paper, No.582-C, U.S. Geological Survey, U.S., pp. 1-19. 10.3133/pp582C

Yotsukura, N. Fischer, H.B., and Sayre, W.W. (1970). Measurement of mixing characteristics of the Missouri River between Sioux City, Iowa and Plattsmouth, Nebraska. U.S. Geological Survey Water-Supply Paper, Washington D.C, U.S.

Yotsukura, N., and Sayre, W.W. (1976). “Transverse mixing in natural channels.” Water Resources Reseach, Vol. 12, No. 4, pp. 695-704. 10.1029/WR012i004p00695

Yotsukura, N., Sayre, W.W., and Alsaffar, A.M. (1968). “Discussion of The mechanics of dispersion in natural streams by HB Fischer.” Journal of the Hydraulics Division, Vol. 95, pp. 1009-1038.

Zhu, F., Lin, Y., and Liu, Y. (2017). “Synthetic minority oversampling technique for multiclass imbalance problems.” Pattern Recognition, Vol. 72, pp. 327-340. 10.1016/j.patcog.2017.07.024

Journal of Korea Water Resources Association ISSN:2799-8746(Print) 2799-8754(Online) 한국수자원학회 논문집

Preview

Development of empirical formula for imbalanced transverse dispersion coefficient data set using SMOTE

ABSTRACT

MAIN

(1)

Fig. 1.

Flow chart of the research method for estimating transverse dispersion coefficient using SMOTE

(2)

(3)

(4)

Table 1.

Empirical formulas for transverse dispersion coefficient using tracer test results

Fig. 2.

Relations between the dimensionless transverse dispersion coefficient and the hydraulic parameters

Fig. 3.

Conceptual diagram of the K-Nearest Neighbors technique for data oversampling

Fig. 4.

Conceptual diagram of the ROC curve and the AUC

Fig. 5.

Confusion Matrix for ROC curve

Fig. 6.

Relations between the oversampled dimensionless transverse dispersion coefficient and the hydraulic parameters

Fig. 7.

Results of ROC curves and AUCs

(5)

(6)

(7)

Fig. 8.

Variations of the transverse dispersion coefficients against to the non-dimensional parameters

Fig. 9.

Comparisons of the transverse dispersion coefficient formulas

(8)

Fig. 10.

R2 of the proposed empirical formulas of the transverse dispersion coefficient (W /H ‹ 50)

Fig. 11.

R2 of the proposed empirical formulas of the transverse dispersion coefficient (W /H › 50)

Supplementary Material

Acknowledgements

References

R² of the proposed empirical formulas of the transverse dispersion coefficient (W /H ‹ 50)

R² of the proposed empirical formulas of the transverse dispersion coefficient (W /H › 50)