PERFORMANCE ANALYSIS OF LU-SGS METHOD USING MULTI-COLORING ALGORITHM AND BLOCK OPERATOR

N. Kim; S. Lee; J.S. Park

doi:10.6112/kscfe.2025.30.1.001

Preview

Original Article

Journal of Computational Fluids Engineering. 31 March 2025. 1-17
https://doi.org/10.6112/kscfe.2025.30.1.001

PERFORMANCE ANALYSIS OF LU-SGS METHOD USING MULTI-COLORING ALGORITHM AND BLOCK OPERATOR

다중 색상 알고리즘과 행렬 연산자를 적용한 LU-SGS 기법의 성능 분석

N. Kim¹

S. Lee¹

J.S. Park¹^†

김 남형¹

이 승수¹

박 진석¹^†

¹Dept. of Aerospace Engineering and Program in Aerospace Systems Convergence, Inha Univ.

¹인하대학교 항공우주공학과 및 우주항공시스템융합전공

^{*Corresponding Author}

License (open-access, http://creativecommons.org/licenses/by-nc/4.0):

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted noncommercial use, distribution, and reproduction in anymedium, provided the original work is properly cited.

ABSTRACT

In this study, the performance of lower-upper symmetric Gauss-Seidel(LU-SGS) methods with multi-coloring algorithm and block operator were compared on shared memory parallelism. The LU-SGS scheme is one of the most popular time integration methods in CFD due to its remarkable robustness and convergence performance; however, data dependency has obstructed the application of the shared memory parallelism. To handle this problem, Colored LU-SGS method is introduced, removing data dependency by applying multi-coloring algorithm to unstructured grid. Albeit the multi-coloring algorithm has high concurrency in parallel execution, it may degrade the implicit property of the numerical method and affect convergence efficiency. Colored Block LU-SGS method uses a block operator, which maintains matrix property of the flux Jacobian so that it can improve convergence stability. Numerical experiments were conducted to validate its efficiency and performance compared with the Colored LU-SGS method. The analysis confirmed that the Colored Block LU-SGS method has a greater maximum CFL number and faster convertgence rate with reference to the total iteration number, and computation time.

Keywords

Computational fluid dynamics

Lower Upper Symmetric Gauss-Seidel

Shared memory parallelism

Multi-coloring algorithm

Block operator

키워드

전산유체역학

LU-SGS

공유 메모리 병렬화

다중 색상 알고리즘

행렬 연산자

MAIN

1. 서 론
2. 연구 방법론
2.1 지배 방정식
2.2 LU-SGS 시간 적분법
2.3 Block LU-SGS
2.4 Multi-Coloring Algorithm
2.5 pyBaram 유동 해석자
3. 수치 실험 결과
3.1 Transonic Inviscid Flow over a NACA 0012 Airfoil
3.2 Subsonic Laminar Flow over a Flat Plate
3.3 Transonic Turbulent Flow over a RAE2822 Airfoil
3.4 Transonic Turbulent Flow over an ONERA M6 Wing
3.5 Supersonic Turbulent Flow around a HB-2 Standard Model
4. 결 론

1. 서 론

정상상태 유동 해석은 비정상 유동 해석과 달리 정상해(steady solution)에 빠르게 도달하는 것이 목표이다. 따라서 일반적으로 1차 정확도의 시간 이산화를 적용하며, 비교적 큰 시간 간격을 가질 수 있는 내재적 시간 전진 기법이 주로 사용된다[1]. 현재까지 다양한 내재적 기법이 개발되어왔고, 그중에서도 Lower-Upper Symmetric Gauss-Seidel(LU-SGS) 기법[2]은 가장 널리 사용되는 반복적 수치 기법의 하나이다. 강건성이 우수하고 높은 CFL 수에서 안정적으로 수렴한다는 특징과 내재적 연산자의 계산 과정에서 존재하는 역행렬 계산이 필요하지 않기 때문에[3] 다른 내재적 기법과 비교했을 때 효율적인 계산이 가능하다는 장점이 있다.

하지만 LU-SGS 기법은 강한 데이터 의존성(Data dependency)으로 인해 SMP(Shared Memory Parallelism) 병렬화를 적용하기 어렵다는 단점이 존재한다[4]. 이 기법은 크게 forward sweep과 backward sweep 두 단계로 구성되어 있는데, 각 sweep에서 각 셀의 물성치를 계산할 때 인접한 셀의 갱신된 물성치 정보가 필요하다. 만약 데이터 의존성을 무시하고 격자 내 모든 셀의 물성치 정보를 동시에 계산할 경우, 인접 셀의 갱신 여부가 불분명한 race condition[5]이 발생하여 계산 결과를 신뢰할 수 없게 된다. 특히 CFD 분야에서는 그 이름에 내포되어 있듯이 컴퓨팅 기술에 대한 영향을 필연적으로 받을 수밖에 없는데[6], 이러한 데이터 의존성은 멀티코어 CPU 및 GPU와 같은 매니코어 컴퓨팅 환경에서 고성능 병렬 컴퓨팅 기술의 적용을 어렵게 하여 계산 가속화를 방해하는 요인으로 작용한다.

따라서 LU-SGS 기법의 데이터 의존성을 제거하기 위한 다양한 방법이 고안되었다. Li 등[4]은 기존의 shared-memory parallelism에 사용되는 pipeline 접근법을 개선한 two-level pipeline LU-SGS 기법을 제안하였다. Pipeline 접근법은 3차원에서 k-방향으로 각 스레드가 동시에 실행할 수 있는 일종의 파이프를 생성, 격자의 대각 방향으로 병렬화를 진행한다. Hyper-plane/hyper-line 접근법을 적용한 LU-SGS[7]보다 성능이 우수하다고 알려져 있으나[8], pipeline의 깊이가 증가할수록 병렬화에 의한 성능 향상 효과가 감소하는 문제가 발생한다. Two-level pipeline 기법은 j-방향으로 sub-task를 생성하여 하나의 커다란 pipeline을 여러 개의 sub-pipeline으로 분할함으로써 이러한 병목 현상을 해결하였다. 또한, Gong 등[9]은 3차원 정렬 격자에서 wavefront 병렬화 알고리즘을 적용한 LU-SGS 기법을 개발하였으며, 방대한 분산 메모리 클러스터에 적용이 가능함을 보였다.

상기한 선행 연구의 LU-SGS 병렬화 기법은 3차원 정렬 격자를 대상으로 하며, 비정렬 격자계의 경우 i, j, k 방향으로 인접한 셀의 정보가 불규칙적이기 때문에 데이터 의존성을 제거하기 위한 다른 방법이 필요하다. 대표적으로 다중 색상 알고리즘(Multi-coloring algorithm)은 인접 셀의 정보를 그래프 형태로 나타내어 여러 색으로 구분하는 방식을 사용한다. 이때 같은 색으로 구성된 셀의 집합은 서로 데이터 의존성을 가지지 않으므로 동시에 계산하는 것이 가능하다. Gauss-Seidel, LU-SGS 등의 시간 적분 기법에 적용되었으며[10,11], 동시 계산 성능이 뛰어나 hyper-plane 알고리즘과 비교했을 때 월등한 병렬 계산 특성을 가지고 있다. 하지만 hyper-plane 알고리즘이 격자 셀을 재배치, 시스템 행렬의 bandwidth를 축소하여 수렴 효율을 향상시키는 것과는 대조적으로, 다중 색상 알고리즘을 적용한 Colored LU-SGS 기법은 시간 적분법의 내재적 특성을 저하하여 수렴성이 악화한다는 단점이 존재한다[11].

LU-SGS 기법의 수렴성 향상을 위해, 각 격자에서 행렬 연산자(Block operator)를 활용하는 Block LU-SGS 기법이 연구되었다. Spectral radius로 Jacobian 행렬을 근사화하는 기존의 LU-SGS 기법과 달리, 행렬 연산자를 사용한 Block LU-SGS 기법은 내재적 연산자의 행렬 특성을 유지함으로써 수렴성을 개선한다[12,13]. Block operator를 저장하기 위한 추가적인 메모리와 대각 행렬 연산에서의 역행렬 계산이 필요하지만, LU-SGS 기법의 수렴 효율을 능가한다는 장점이 있다.

따라서 다중 색상 알고리즘과 행렬 연산자를 적용한 Colored Block LU-SGS 기법이 제안되었으며, 선행 연구[14]에서는 이기종 컴퓨팅 환경에서 무격자 기법(meshless method)을 적용하여 수치 기법의 CPU 및 GPU 계산 성능을 비교한 바 있다. 본 연구에서는 Colored Block LU-SGS 기법의 수렴 특성을 파악하기 위해 CPU 클러스터 환경에서 Colored LU-SGS 기법과의 성능을 비교 분석하고자 한다. 2차원 및 3차원 유동 해석을 통해 반복 횟수 및 계산 시간에 따른 잔류항과 공력 계수의 수렴 그래프를 도시하였으며, 행렬 연산자를 적용함으로써 Colored LU-SGS 기법에서의 수렴성 저하 문제를 보완할 수 있음을 확인하였다.

2. 연구 방법론

2.1 지배 방정식

본 연구에서는 압축성 유동의 정상해 해석을 목표로 한다. 유한 체적법(Finite Volume Method, FVM)을 적용한 Navier-Stokes 방정식은 식 (1)과 같이 적분 형태로 나타낼 수 있다. $\vec{Q}$ 는 conservative variables, $\vec{F_{c}}$ , $\vec{F_{V}}$ 는 각각 convective flux와 viscous flux를 의미한다. Backward Euler 시간 이산화를 적용하여 식 (1)을 차분 형태로 작성하면 식 (2)와 같이 폐적분을 부분합으로 변환할 수 있다. 상첨자 $n + 1$ 은 다음 시간 간격에서의 물리량을 나타내며, $\vec{F_{i j}}$ 는 현재 셀과 인접한 셀 경계면에서의 수치 flux vector, $N_{i}$ 는 각 제어 체적을 둘러싼 경계면의 개수이다. $v_{i}$ 는 제어 체적의 부피, $Δ S_{i j}$ 는 셀 경계면의 면적, $Δ t_{i}$ 는 각 셀에서의 시간 간격을 의미한다.

(1)

\frac{\partial}{\partial t} \int_{V} \vec{Q} d V + \oint_{\partial V} ({\vec{F}}_{c} - \vec{F_{v}}) d S = 0

(2)

\frac{V_{i}}{Δ t_{i}} Δ \vec{Q_{i}} + \sum_{j \in N_{i}} \vec{F_{i j}^{n + 1}} Δ S_{i j} = 0

(3)

Δ \vec{Q_{i}} = \vec{Q_{i}^{n + 1}} - \vec{Q_{i}^{n}}

(4)

\vec{F_{i j}^{n + 1}} = \vec{F_{c, i j}^{n + 1}} - \vec{F_{v, i j}^{n + 1}}

식 (2)에서 $\vec{F_{i j}^{n + 1}}$ 는 식 (5)와 같이 Taylor series 전개를 통해 선형화할 수 있으며, 그 결과는 식 (6), (7)과 같다.

(5)

\vec{F_{i j}^{n + 1}} \approx \vec{F_{i j}^{n}} + \frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{i}}} Δ {\vec{Q}}_{i} + \frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{j}}} Δ {\vec{Q}}_{j}

(6)

[\frac{V_{i}}{Δ t_{i}} I + (\frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{i}}}) Δ S_{i j}] Δ \vec{Q_{i}} + \sum_{j \in N_{i}} (\frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{j}}} Δ \vec{Q_{j}}) Δ S_{i j} = - \vec{R_{i}^{n}}

(7)

\vec{R_{i}^{n}} = \sum_{j \in N_{i}} ({\vec{F}}_{c, i j} - {\vec{F}}_{v, i j}) Δ S_{i j}

식 (6)에서 flux Jacobian을 수치적으로 계산하는 방법은 공간 이산화의 기법에 따라 달라진다. 식 (7)은 외재적 연산자(Explicit operator)라고 불리며, 수치해의 공간 정확도를 결정한다[1]. 난류 유동 해석을 위해 RANS 난류 모델을 사용하였으며, 난류 모델 방정식 또한 유동 방정식과 동일한 과정으로 이산화할 수 있다. 이때 RANS 난류 모델 방정식은 유동 방정식과 분리하여 계산할 수 있다[15,16].

2.2 LU-SGS 시간 적분법

LU-SGS 기법은 선형 방정식 (8)의 해를 구하기 위한 반복적 수치 기법으로, 내재적 연산자 $A$ 를 식 (9)과 같이 근사화한다. $U$ 는 상삼각행렬, $L$ 은 하삼각행렬, $D$ 는 대각 행렬을 의미한다. 식 (9)는 식 (10), (11)의 Forward sweep 및 Backward sweep 두 단계로 분리하여 해를 구할 수 있다. LU-SGS는 각 sweep을 1번씩 진행하여 다음 시간 간격의 물성치를 갱신한다.

(8)

A Δ \vec{Q} = - \vec{R}

(9)

A = U + D + L \approx (D + U) D^{- 1} (D + L)

Forward sweep:

(10)

(D + L) Δ \vec{Q^{*}} = - \vec{R}

Backward sweep:

(11)

(D + U) Δ \vec{Q} = D Δ \vec{Q^{*}}

일반적으로 시스템 행렬 $A$ 는 flux Jacobian을 포함한 매우 큰 희소행렬 형태이다. LU-SGS 기법은 Rusanov flux를 사용하여 Jacobian 항을 1차 정확도로 근사화한다. Forward sweep에서 $Δ \vec{Q^{*}}$ 의 초기값을 0으로 가정하면 LU-SGS 기법의 각 sweep 과정은 식 (14), (15)로 표현된다. $λ_{i j}$ 는 셀 경계면에서의 spectral radius, ${\vec{F}}_{c, i}$ 와 ${\vec{F}}_{c, j}$ 는 각각 현재 셀과 인접 셀의 convective flux를 의미한다. 식 (12)는 Rusanov flux의 계산 식을, 식 (13)은 Jacobian의 Taylor series 전개를 통한 1차 정확도 근사화 식을 나타낸다.

(12)

{\vec{F}}_{Rusanov} (\vec{Q_{i}}, \vec{Q_{j}}) = \frac{1}{2} [{\vec{F}}_{c, i} + {\vec{F}}_{c, j} - λ_{i j} (\vec{Q_{j}} - {\vec{Q}}_{i})]

(13)

\frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{i}}} Δ \vec{Q_{i}} \approx \vec{F} ({\vec{Q}}_{i}^{n + 1}, {\vec{Q}}_{j}^{n + 1}) - \vec{F} ({\vec{Q}}_{i}^{n}, {\vec{Q}}_{j}^{n + 1})

Forward sweep:

(14)

D Δ {\vec{Q}}_{i}^{*} = - {\vec{R}}_{i}^{n} - \frac{1}{2} \sum_{j \in L_{i}} \{\vec{F} ({\vec{Q}}_{j}^{n} + Δ {\vec{Q}}_{j}^{*}) - \vec{F} ({\vec{Q}}_{j}^{n}) - λ_{i j} Δ {\vec{Q}}_{j}^{*}\} Δ S_{i j}

Backward sweep:

(15)

Δ {\vec{Q}}_{i}^{n} = - \frac{1}{2} D^{- 1} \sum_{j \in U_{i}} \{\vec{F} ({\vec{Q}}_{j}^{n} + Δ {\vec{Q}}_{j}^{n}) - \vec{F} ({\vec{Q}}_{j}^{n}) - λ_{i j} Δ {\vec{Q}}_{j}^{n}\} Δ S_{i j}

(16)

D = (\frac{V_{i}}{Δ t_{i}} + \frac{1}{2} \sum_{j \in N_{i}} λ_{i, j} Δ S_{i j}) I

식 (16)에서 내재적 연산자의 대각 행렬은 단위행렬에 계수가 곱해진 형태임을 알 수 있다. 따라서 sweep 과정에서 나타나는 역행렬 계산은 상수의 나눗셈 연산으로 변환된다. $L_{i}$ , $U_{i}$ 는 각각 현재 제어 체적에서의 하단과 상단 인접 셀을 의미하며, 비정렬 격자계에서는 셀의 상단과 하단을 식 (17)과 같이 격자의 색인에 따라 구분한다[17].

(17)

\{\begin{cases} L_{i} = j \in N_{i} : j < i \\ U_{i} = j \in N_{i} : j > i \end{cases}

2.3 Block LU-SGS

Block LU-SGS 기법은 LU-SGS 기법과 달리 flux Jacobian을 spectral radius로 근사화하지 않고, 행렬 연산자 형태를 유지한다. 식 (10), (11)의 내재적 연산자를 식 (6) 형태로 변환하면 다음과 같이 Block LU-SGS 기법에서의 forward 및 backward sweep 식 (18), (19)를 얻을 수 있다. $Δ \vec{Q^{*}}$ 는 forward sweep 이후의 해를 의미하며, $∆ \vec{Q^{k + 1}}$ 는 $k$ +1 단계에서의 해를 의미한다.

Forward sweep:

(18)

D Δ \vec{Q_{i}^{*}} + \sum_{j \leq L_{i}} (\frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{j}}} Δ S_{i j}) Δ \vec{Q_{j}^{*}} + \sum_{j \leq U_{i}} (\frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{j}}} Δ S_{i j}) Δ \vec{Q_{j}^{k}} = - \vec{R_{i}}

Backward sweep

(19)

D Δ \vec{Q_{i}^{k + 1}} + \sum_{j \in L_{i}} (\frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{j}}} Δ S_{i j}) Δ \vec{Q_{j}^{*}} + \sum_{j \in U_{i}} (\frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{j}}} Δ S_{i j}) Δ \vec{Q_{j}^{k + 1}} = - \vec{R_{i}}

(20)

D = (\frac{V_{i}}{Δ t_{i}} I + \sum_{j \in N} \frac{\partial \vec{F_{i j}}}{\partial \vec{Q_{i}}}) Δ S_{i j}

Block LU-SGS 기법은 forward 및 backward sweep을 반복하여 $∆ \vec{Q}$ 의 값을 여러 번 갱신할 수 있으며, 이 과정을 통해 각 시간 간격에서의 해를 더 정확하게 포착할 수 있다. 내부 반복 계산 횟수는 식 (21)을 기준으로 조절한다[12]. $K_{\max}$ , 𝜖은 사용자 지정 매개변수이며, 각각 최대 반복 횟수와 내부 허용 오차를 의미한다. $Δ \vec{Q^{1}}$ 은 첫 번째 내부 반복 이후의 물성치를 나타낸다. 내부 반복 횟수가 $K_{\max}$ 에 도달할 경우, 식 (21)의 허용 오차 기준을 만족하지 않더라도 다음 시간 간격으로 넘어가게 된다.

(21)

\frac{||Δ \vec{Q^{k}} - Δ \vec{Q^{k - 1}}||}{‖ Δ \vec{Q^{1} ‖}} \leq ϵ k \leq K_{\max}

식 (18), (19)에서 flux Jacobian을 해석적으로 구하는 것은 매우 어렵다. 따라서 참고문헌 [12]에서는 식 (13)과 Roe의 Flux Difference Splitting[18] 기법을 사용하여 Jacobian 행렬을 1차 정확도로 근사화하였다. Roe 기법을 사용하는 경우 점성 유동 해석에서 수렴 안정성이 저하될 수 있으므로[19], 본 연구에서는 van Leer의 Flux Vector Splitting[20] 기법을 이용하여 flux Jacobian을 계산하였다.

LU-SGS 기법과 달리 Block LU-SGS는 flux Jacobian의 형태가 남아있기 때문에 대각 행렬이 단위행렬로 표현되지 않으므로[12], Forward 및 Backward sweep에서 역행렬 계산 과정이 필요하다. 본 연구에서는 각 셀의 대각 행렬 성분을 LU 분해하여 저장한 뒤, 역행렬 계산 단계에서 전진 및 후진 대입법을 사용함으로써 반복 계산 시 계산량을 최소화하였다.

본 연구에서 convective flux는 van Leer FVS, viscous flux는 Thin-Layer approximation, turbulent flux는 Upwind scheme[21]을 적용하여 Jacobian을 계산하였다. 1-equation Spalart-Allmaras[22] 및 2-equation k𝜔-SST[23] 난류 모델의 flux Jacobian은 각각 식 (22), (23)으로 표현된다. $\vec{F_{T}}$ , $\vec{Q_{T}}$ 는 각각 난류 모델 방정식에서의 flux와 conservative variables를, $V$ 는 contravariant velocity, $r_{j} - r_{i}$ 는 현재 셀과 인접한 셀의 중심 거리를 의미한다. $σ$ , $σ_{k}$ , $σ_{ω}$ 는 난류 모델에서의 상수이며 $ν_{t}$ , $μ_{t}$ 는 난류 동점성계수 및 eddy viscosity를 나타낸다. 이때 eddy viscosity는 상수로 가정한다[16].

Spalart-Allmaras :

(22)

{(\frac{\partial \vec{F_{T}}}{\partial \vec{Q_{T}}})}^{\pm} = \frac{V \pm | V |}{2} \pm \frac{ν + ν_{t}}{σ (r_{j} - r_{i})}

k𝜔-SST :

(23)

{(\frac{\partial \vec{F_{T}}}{\partial \vec{Q_{T}}})}^{\pm} = [\begin{matrix} \frac{V \pm | V |}{2} \pm \frac{μ + σ_{k} μ_{t}}{ρ (r_{j} - r_{i})} & 0 \\ 0 & \frac{V \pm | V |}{2} \pm \frac{μ + σ_{ω} μ_{t}}{ρ (r_{j} - r_{i})} \end{matrix}]

원천 항(source term)의 경우 Spalart’s “third strategy”[22]에 의하여 $S_{p}$ 항(production term)은 외재적으로, $S_{D}$ 항(destruction term)은 선형화하여 내재적으로 처리한다[16]. 원천 항의 Jacobian은 식 (24), (25)와 같다. $d$ 는 wall distance를 나타내며, $C_{w 1}$ , $f_{w}$ , $β *$ , $σ_{ω 2}$ 는 각 난류 모델에서의 상수이다. Jacobian의 모든 원소는 양수 값만을 취하여 계산에 포함하였다.

Spalart-Allmaras :

(24)

\frac{\partial \vec{S}}{\partial \vec{Q_{T}}} = \max (\frac{2 C_{w 1} f_{w} ν_{t}}{d^{2}}, 0)

k𝜔-SST :

(25)

\frac{\partial \vec{S}}{\partial \vec{Q_{T}}} = [\begin{matrix} \max (β^{*} ω, 0) & \max (β^{*} k, 0) \\ 0 & \max (2 β ω + 2 (1 - F_{1}) σ_{ω 2} \frac{1}{ω^{2}} \frac{\partial k}{\partial x_{j}} \frac{\partial ω}{\partial x_{j}}, 0) \end{matrix}]

2.4 Multi-Coloring Algorithm

다중 색상 알고리즘(Multi-coloring algorithm)은 비정렬 격자계에서 race condition을 제거하기 위해 사용되는 대표적인 방법으로, 각 셀의 인접 정보를 파악하여 서로 인접하지 않은 셀을 하나의 집합(cluster)으로 만든다. 2차원 정렬 격자의 경우 red black ordering 또는 checkerboard 기법이라 불리는 알고리즘[24,25,26]을 적용하면 2개의 색깔만으로 분류할 수 있으나, 비정렬 격자의 경우 인접한 셀의 정보가 불규칙적으로 배열되어 있으므로 일반적으로 3개 이상의 색을 사용한다. 격자 내에 존재하는 모든 셀은 인접한 셀과 다른 색으로 분류되어야 하며, 계산은 각 색깔의 묶음으로 이루어진 셀 내부에서 동시적으로 진행된다[10,11]. 같은 색으로 분류된 셀은 서로 연관성이 없으므로 데이터 의존성이 존재하지 않아 물리적 정보가 동시에 갱신되어도 race condition이 발생하지 않는다.

Fig. 1은 비정렬 격자에서의 다중 색상 알고리즘 적용 예시를 나타낸 것이다. 비정렬 격자 Fig. 1(a)는 Fig. 1(b)와 같이 무방향 그래프(undirected graph) 형태로 표현할 수 있다. 그래프의 노드는 격자의 셀을, 간선은 각 셀의 인접 정보를 의미한다. 알고리즘을 적용한 결과를 3개의 색상으로 구분하면 Fig. 1(c)와 같다. 본 연구에서는 Python 기반 모듈인 NetworkX[27]를 사용하여 다중 색상 알고리즘을 구현하였으며, 이 알고리즘을 적용한 수치 기법의 자세한 설명은 선행연구[10,11]에 기재되어 있다.

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F1.jpg

Fig. 1.

Example of the multi-coloring implementation to unstructured grid, (a) Simple unstructured grid, (b) Grid connection graph, (c) Result after applying multi-coloring algorithm

2.5 pyBaram 유동 해석자

본 연구에서는 pyBaram[28] 유동 해석자를 사용하여 전산 해석을 진행하였다. pyBaram은 Python 언어로 작성된 비정렬 격자 기반의 오픈소스 압축성 유동 해석 프로그램이다. CGNS, Gmsh 격자 형식을 지원하며, Euler, Navier-Stokes, RANS 지배 방정식의 해석이 가능하다. 또한 Numba[29] 고성능 Python 패키지에 내장된 Just-In-Time Compilation 기술을 적용하여 인터프리터 언어의 속도 문제를 개선하였다. LU-SGS, Colored LU-SGS 내재적 시간 적분 기법과, 비정렬 격자계에 대해 유한 체적법을 적용한 공간 차분 기법이 구현되어 있다. 특히 MLP(Multi-dimensional Limiting Process)-u 기울기 제한자[30]와 Rotated-RoeM[31] 등의 정밀한 수치 flux를 적용하여 고속 유동장을 강건하고 정밀하게 해석할 수 있다.

병렬화의 경우 격자 분할을 통한 MPI 병렬 계산 및 Colored LU-SGS 기법을 사용한 SMP 병렬 계산이 가능하다. pyBaram 해석자에 대한 자세한 설명 및 사용 방법은 참고문헌[28] 및 코드 저장소의 documentation 페이지에 기재되어 있다. 또한, 본 연구에서 구현한 Block LU-SGS 및 Colored Block LU-SGS 기법의 코드는 저장소의 ‘develop’ branch에서 확인할 수 있다.

3. 수치 실험 결과

다중 색상 알고리즘을 적용한 Colored Block LU-SGS 기법의 효율성을 분석하고자 비정렬 격자에서의 전산 유동 해석을 진행하였다. 수렴 성능 비교를 위해 반복 횟수뿐만 아니라 전체 계산 시간을 함께 비교하였다. 이때 첫 번째 반복 계산에서는 JIT Compilation으로 인해 초기 코드 컴파일 시간을 포함하기 때문에 두 번째 반복 계산부터 시간을 측정하였다. 계산 시간은 Colored LU-SGS 기법의 수렴 시간을 기준으로 무차원화 하였다. 각 시간 적분 기법은 최대 CFL 수를 기준으로 계산하였으며, 잔류항 및 공력 계수 수렴 그래프의 범례에 그 값을 표기하였다. 공간 차분 기법으로는 2차 공간 정확도를 갖는 MUSCL-type linear reconstruction에 MLP-u2 기울기 제한자를 적용하였다. 비점성 수치 flux 함수로는 Roe기법[18]을 적용하였고, 난류 방정식은 1차 공간 정확도로 계산하였다. Colored Block LU-SGS 기법에서 최대 내부 반복 횟수와 내부 허용 오차의 기본값은 각각 10과 0.1로 설정하였다.

3.1 Transonic Inviscid Flow over a NACA 0012 Airfoil

첫 번째 해석 문제는 NACA 0012 에어포일의 천음속 비점성 유동 해석이다. 자유류의 마하수는 0.8, 받음각은 1.25°이다. 코드 길이는 1.0이며, 격자는 에어포일의 윗면과 아랫면이 각각 150개의 경계면으로 구성된 총 14,876개의 triangular 셀로 이루어져 있다. Fig. 2는 NACA0012 에어포일 형상 및 압력 계수 분포를 도시한 그림이다. Table 1은 수렴해의 공력 계수를 요약한 것으로, 선행연구와 유사한 결과를 나타내고 있다.

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F2.jpg

Fig. 2.

Pressure coefficient contour of transonic inviscid flow over NACA0012 airfoil

Table 1.

Lift and drag coefficients of transonic inviscid flow over NACA0012 airfoil

Test case	$C_{l}$	$C_{d}$
Vassberg and Jameson[32]	0.3562	0.0227
AGARD 211[33]	0.3463	0.0223
Present	0.3502	0.0213

공유 메모리 환경에서 다중 색상 알고리즘을 적용한 LU-SGS 기법의 수렴성 비교 결과는 Fig. 3와 같다. 최대 CFL 수는 Colored Block LU-SGS 기법이 100, Colored LU-SGS 기법이 7의 값을 가졌다. 최대 CFL 수에서의 수렴 반복 횟수 및 계산 시간을 Table 2에 정리하였으며, 최대 CFL 수에서 수렴 횟수는 약 16배의 차이를 보였다. 계산 시간을 기준으로 두었을 때(Fig. 3(b))에는 동일한 CFL 수에서 Colored Block LU-SGS 기법의 성능이 오히려 감소하였고, 이는 행렬 연산자의 역행렬 저장 및 내부 반복 계산으로 인한 계산량 증가 영향이 수렴 가속화 효과보다 크다는 것을 의미한다. 최대 CFL 수에서의 속도 또한 차이가 다소 감소하였으나, 행렬 연산자의 수렴성 개선 효과로 Colored Block LU-SGS 기법에서 더 높은 최대 CFL 수를 가질 수 있어 약 30%의 성능 향상을 보였다.

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F3.jpg

Fig. 3.

Comparison of convergence history for inviscid transonic flow over NACA 0012 airfoil in terms of iterations (a) and normalized computation time (b)

Table 2.

Iteration number and normalized computation time for inviscid transonic flow over NACA0012 airfoil until convergence

Method	Maximum CFL	Iteration	Normalized computation time
Colored LU-SGS	7.0	64,511	1.0
Colored Block LU-SGS	50.0	3,977	0.7663

3.2 Subsonic Laminar Flow over a Flat Plate

다음으로 2차원 평판에서의 아음속 점성 유동 해석을 진행하였다. 자유류의 마하수는 0.2, 레이놀즈 수는 700,000이며, 격자는 가로 55개, 세로 60개로 총 3,300개의 quadratic 셀로 구성되어 있다. 경계조건은 Fig. 4과 같이 설정하였다. Inflow는 total condition으로, total pressure 및 total enthalpy를 부여하였다. Outflow는 back pressure를 지정한 경계조건을 부여하였다. 하단 벽면의 경우 평판에서 x축 방향으로 전방 19개까지의 격자는 symmetric, 그 이후는 adiabatic wall 경계조건을 부여하였다. 격자의 첫 번째 벽면 거리는 무차원화 하여 약 10^-5으로 설정했다. 계산 결과 $x$ =0.2 위치에서 경계층의 $x$ 방향 속도 성분을 비교하여 Fig. 5에 도시하였으며, 두 기법 모두 Blasius 해와 정확히 일치하는 것을 확인하였다.

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F4.jpg

Fig. 4.

Boundary conditions of subsonic laminar flow over a flat plate

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F5.jpg

Fig. 5.

Comparison of velocity profile at $x$ =0.2 with Blasius solution

다중 색상 알고리즘을 적용한 LU-SGS 기법의 계산 결과를 Fig. 6에 나타내었다. 평판에서는 y축 방향으로의 속도 성분이 중요하기 때문에 잔류항 지표를 밀도와 y축 속도의 곱으로 설정하였다. Fig. 3과 유사하게 동일한 CFL 수에서는 Colored LU-SGS 기법이 계산 시간 측면에서 비교적 우수한 수렴 성능을 보였다. Fig. 6(a)에서 잔류항 감소 경향의 차이가 뚜렷하게 드러나는데, 이는 Colored Block LU-SGS 기법이 내부 반복 계산 과정에서 초기 경계층 근처의 해를 더 정확하게 포착하기 때문이다. Fig. 6(a)에서 반복 횟수를 기준으로 비교했을 때 동일한 CFL 수의 Block LU-SGS 기법은 LU-SGS 기법에 비해 좋은 성능을 보이나, 계산 시간을 기준으로 한 Fig. 6(b)를 보면 밀도 잔류항의 자릿수가 10^-4 이하로 감소한 이후에는 LU-SGS 기법이 조금 더 빠르게 수렴해에 접근한다. 하지만 행렬 연산자를 사용했을 경우 CFL 수를 50까지 높일 수 있으며, 이 경우 반복 횟수 및 계산 시간 모두 Colored Block LU-SGS 기법의 수렴 속도가 월등히 높았다. 이렇듯 최대 CFL 수의 증가는 반복 계산에서의 각 시간 간격을 크게 측정하여 정상해에 더 빠르게 도달할 수 있으므로 효율적인 계산이 가능하다.

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F6.jpg

Fig. 6.

Comparison of convergence history for subsonic laminar flow over a flat plate in terms of iterations (a) and normalized computation time (b)

3.3 Transonic Turbulent Flow over a RAE2822 Airfoil

RANS 방정식의 해석을 검증하기 위해 천음속 RAE2822 에어포일의 난류 유동 해석을 수행했다. 자유류의 마하수는 0.729, 받음각은 2.31°이며 레이놀즈수는 6.5×10⁶으로 설정하였다. 난류 모델은 2-equation Menter’s k𝜔-SST 모델을 사용하였다. 격자는 18,042개의 triangular 셀과 4,800개의 quadratic 셀로 이루어져 있으며, y+의 값은 1.0 이하를 유지하였다. 또한, Colored Block LU-SGS 기법에서 최대 내부 반복 계산 횟수는 3으로 설정했다. Fig. 7은 RAE2822 에어포일의 형상과 압력 계수 분포를 나타낸 것이다. 두 기법 모두 압력 계수가 실험값과 잘 일치하는 것을 확인할 수 있다.

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F7.jpg

Fig. 7.

Pressure coefficient contour(a) and plot(b) for transonic turbulent flow over RAE2822 airfoil

Fig. 8을 통해 RAE2822 에어포일의 수렴 그래프를 도시하였다. 다중 색상 알고리즘을 적용했을 때 최대 CFL 수는 LU-SGS 기법이 5, Block LU-SGS 기법이 15로 제한되었다. 반복 횟수를 기준으로 Colored LU-SGS 기법은 약 15000번에서 잔류항의 자릿수가 10^-4까지 감소하나, 그 이후에는 특정한 구간 사이에서 진동하는 것을 볼 수 있다. 하지만 Colored Block LU-SGS 기법을 사용한 경우 잔류항이 안정적으로 감소하였으며, CFL 수가 5, 15일 때 수렴하기까지의 반복 횟수는 약 2.5배의 차이를 보였다(Fig. 8(a)). 계산 시간을 기준으로는 동일한 CFL 수에서 두 기법 모두 잔류항의 자릿수가 10^-4까지 유사한 속도로 감소하였으며, Colored Block LU-SGS 기법을 비교했을 때 최대 CFL 수에서 약 2.5배의 성능 향상을 확인하였다(Fig. 8(b)).

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F8.jpg

Fig. 8.

Comparison of convergence history for transonic turbulent flow over RAE2822 airfoil in terms of iterations (a) and normalized computation time (b)

3.4 Transonic Turbulent Flow over an ONERA M6 Wing

3차원 난류 유동 해석을 검증하기 위한 문제로 ONERA M6 날개 표면의 천음속 유동을 해석하였다. 난류 모델은 2-equation Menter’s k𝜔-SST를 사용했으며, 자유류의 마하수는 0.84, 레이놀즈수는 14.6×10⁶, 받음각은 3.06°로 설정하였다. 격자는 NASA Turbulence Modeling Research[34]에서 제공하는 medium mixed grid로, 270,336개의 prism 셀과 811,008개의 hexahedral 셀로 이루어져 있다. 4개의 프로세서를 통해 MPI 병렬화 계산을 수행하였고, 각 프로세서에서는 28개의 스레드를 사용했다. Colored Block LU-SGS 기법의 최대 내부 반복 계산 횟수는 2로 설정하였다. Fig. 9는 ONERA M6 wing의 압력 계수 분포를 나타낸 그림이다.

공력 계수는 반복 계산을 거치면서 하나의 값으로 수렴하는데, 시간 전진 기법의 영향을 받지 않으므로 값이 변하지 않는 지점에서의 반복 횟수와 계산 시간을 측정하여 각 기법 간의 수렴 성능을 비교할 수 있다. 본 문제에서는 양력 계수를 지표로 사용하여 반복 횟수 및 계산 시간에 따른 수렴도를 Fig. 9에 도시하였다. 수렴 기준은 일정 범위의 공력 계수 값과 계산 마지막 공력 계수를 비교하여 모두 허용 오차 이하의 값일 때 수렴하였다고 판단한다. 각 지점을 포함한 전후 4개의 값 총 9개의 공력 계수를 조사하였으며, 허용 오차는 10^-4로 설정하였다. 또한, 초기 CFL 수를 고정한 경우와 수렴 과정에서 CFL 수를 선형적으로 증가시킨 경우를 함께 비교하여 도시하였다. 각 기법에서 설정한 CFL 수는 Table 3과 같다.

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F9.jpg

Fig. 9.

Pressure coefficient contour of transonic turbulent flow over ONERA M6 wing

Table 3.

Maximum CFL number and linear ramping information of each time-integration method

Method	Maximum constant CFL	Linear CFL ramping
Method	Maximum constant CFL	Initial CFL	Initial iteration	Maximum iteration	Maximum CFL
Colored LU-SGS	6.0	2.0	500	1,000	6.0
Colored Block LU-SGS	12.0	5.0	500	1,000	16.0

수렴 완료 지점을 Fig. 10에서 ‘x’ 마커로 표시하였으며, 각 지점에서의 반복 횟수 및 무차원화 계산 시간, 성능 개선율을 Table 4에 요약하였다. 무차원화 시간은 CFL 수를 고정한 Colored LU-SGS 기법의 계산 시간을 기준으로 하였으며, 시간 성능 개선율은 식 (26)과 같이 계산한다. $T_{1}$ 은 CFL 수를 고정한 Colored LU-SGS의 계산 시간을, $T_{2}$ 는 성능 비교 대상의 계산 시간을 의미한다.

(26)

Performance innprovement = \frac{T_{1} - T_{2}}{T_{2}} \times 100 (%)

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F10.jpg

Fig. 10.

Comparison of lift coefficient history for transonic turbulent flow over ONERA M6 wing in terms of iterations (a) and normalized computation time (b)

Table 4.

Convergence performance comparison between time integration methods for transonic turbulent flow over ONERA M6 wing

Method	Iteration	Normalized computation time	Performance improvement(%)
Colored LU-SGS, const CFL	15,520	1.0	N/A
Colored LU-SGS, ramp CFL	17,020	1.1396	-12.25
Colored Block LU-SGS, const CFL	4,300	0.5108	95.78
Colored Block LU-SGS, ramp CFL	4,080	0.4865	105.54

Colored LU-SGS 기법의 경우 CFL 수를 선형적으로 증가시켰을 때의 최댓값이 6.0으로 초기 CFL 수를 고정했을 때와 같은 값을 가졌다(Table 3). 그 이상의 값을 사용했을 경우 수렴이 일정 수준 진행되었음에도 공력 계수가 다시 진동하여 수치적으로 불안정한 현상을 보였으며, 선형적 증가 과정에서는 초기 CFL 수를 낮게 설정하기 때문에 계산 시간을 기준으로 오히려 성능이 약 12.25% 감소하였다. 반면 Colored Block LU-SGS 기법은 CFL 수를 선형적으로 증가시켰을 때 최대 16.0의 값을 가질 수 있었고, 수렴 성능이 계산 시간 기준 약 10% 향상되었다(Table 4). CFL 수를 선형적으로 증가시킬 시 수렴해와 근접한 구간에서 초기 CFL 수보다 더 큰 값을 가질 수 있으나, Colored Block LU-SGS 기법의 경우 높은 CFL 수에서는 각 시간 간격에서 내부 허용 오차에 도달하기 위해 더 많은 내부 반복 계산이 필요하므로 수렴 가속화 효과와 내부 반복 계산의 계산량 증가 영향이 서로 상쇄된다. 따라서 해석 문제에 따라 적절한 초기 CFL 수 및 선형 증가 구간 설정이 필요하다.

3.5 Supersonic Turbulent Flow around a HB-2 Standard Model

초음속에서의 3차원 난류 유동 해석을 검증하기 위해 HB-2 형상 주위의 유동 해석을 진행하였다. 난류 모델은 1-equation Spalart-Allmaras를 사용하였다. 자유류 마하수는 2.0, 레이놀즈수는 1.7×10⁶, 받음각은 2.0°로 설정하였다. 또한 초음속 유동에서의 수치 불안정성을 억제하기 위하여 AUSMPW+[35] 수치 flux 기법을 사용하였다. 격자는 1,096,280개의 mixed cell로 구성되어 있고, 4개의 프로세서를 통한 MPI 병렬화와 각 프로세서당 28개의 스레드를 사용하여 공유 메모리 병렬화를 구현하였다. Fig. 11은 symmetry plane에서의 마하 수 분포를 가시화한 그림으로, 노즈 앞전에서의 활모양 충격파(bow shock)와 동체 후방의 경사 충격파(oblique shock)가 잘 포착된 것을 볼 수 있다.

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F11.jpg

Fig. 11.

Mach number contour of supersonic turbulent flow around HB-2 standard model

공력 계수의 수렴 그래프를 통해 성능을 비교하였으며, 본 문제에서는 수직력 계수를 지표로 사용하였다. 각 지점을 포함한 전후 3개의 값 총 7개의 공력 계수를 조사하였으며, 허용 오차는 10^-4로 설정하였다. 수렴 완료 지점을 ‘x’ 마커로 표시하여 그래프를 도시하면 Fig. 12와 같고, 각 기법의 수렴 위치에서 반복 횟수와 무차원화 계산 시간을 요약하여 Table 5에 정리하였다.

https://cdn.apub.kr/journalsite/sites/kscfe/2025-030-01/N0500300101/images/jkscfe_2025_301_001_F12.jpg

Fig. 12.

Comparison of normal force coefficient history for supersonic turbulent flow around HB-2 standard model in terms of iterations (a) and normalized computation time (b)

Table 5.

Convergence performance comparison between time integration methods for supersonic turbulent flow around HB-2 standard model

Method	Iteration	Normalized computation time	Performance improvement(%)
Colored LU-SGS, CFL = 1.5	2,930	1.0	N/A
Colored Block LU-SGS, CFL = 2.5	1,750	1.1930	-16.18

최대 CFL 수는 Colored LU-SGS 기법이 1.5, Colored Block LU-SGS 기법이 2.5로 이전의 해석 문제에 비해 적은 차이를 보였다. Colored Block LU-SGS 기법은 공력 계수가 수렴하기까지 Colored LU-SGS 기법보다 적은 반복 횟수를 가졌으나, 수치 기법의 계산량 증가 영향이 수렴 가속화 효과를 뛰어넘지 못해 수렴 효율이 역전되어 계산 시간을 기준으로 측정했을 때에는 오히려 수렴하기까지 약 16% 더 많은 시간이 소요되었다.

4. 결 론

본 연구에서는 공유 메모리 환경에서 Colored LU-SGS 기법을 적용했을 때 발생하는 수렴성 저하 문제를 보완하기 위해 다중 색상 알고리즘과 행렬 연산자를 적용한 Colored Block LU-SGS 기법을 pyBaram 유동 해석자에 구현하였으며, 그 성능을 Colored LU-SGS 기법과 비교 분석하였다. 기존의 LU-SGS 기법에서 내재적 연산자를 spectral radius로 근사화하는 것과 달리 Block LU-SGS는 행렬 특성을 유지하여 수렴 안정성을 높인다.

각 유동 해석 사례에서 밀도 잔류항 및 공력 계수의 수렴 그래프를 함께 도시하여 반복 횟수와 계산 시간을 기준으로 최대 CFL 수에서 Colored Block LU-SGS 기법의 성능 향상 결과를 가시화하였다. 그 결과 행렬 연산자 적용 및 내부 반복 계산을 통한 수렴성 개선 효과를 확인하였고, 아음속 및 천음속 유동 해석에서 Colored LU-SGS 기법보다 높은 CFL 수에서도 안정적으로 수렴하여 효율적인 계산이 가능하였다. 특히 Navier-Stokes 방정식 해석의 경우 내부 반복 계산을 통해 경계층 근처에서의 해를 더 정확하게 포착함으로써 초기 잔류항이 빠르게 감소하는 경향을 보였으며, 행렬 연산자의 적용을 통해 난류 유동 해석에서 Colored LU-SGS 기법을 사용했을 때 발생하는 잔류항 진동 현상을 해결할 수 있음을 확인하였다. 또한, 3차원 유동 해석 시 공력 계수의 수렴 속도를 비교하여 성능 개선율을 계산한 결과 천음속 유동 해석에서 Colored Block LU-SGS 기법이 최대 약 105% 높은 성능을 보였다.

Acknowledgements

본 연구는 대한민국 정부(과학기술정보통신부)의 재원으로 한국연구재단 초고성능컴퓨팅 SW 생태계 조성 사업의 지원을 받아 수행되었습니다(과제번호 RS-2023-00282764).

References

2005, Blazek, J., "Computational Fluid Dynamics: Principles and Applications (2nd ed.)," Elsevier, UK.

1988, Yoon, S. and Jameson, A., "Lower-Upper Symmetric-Gauss-Seidel Method for the Euler and Navier-Stokes Equations," AIAA J., Vol.26, No.9, pp.1025-1026.

10.2514/3.10007

2016, Huang, X. and Wang, D.X., "Stabilizing and Accelerating Solution of Harmonic Balance Equation System Using the LU-SGS and Block Jacobi Methods," Proceedings of ASME Turbo Expo 2016: Turbomachinery Technical Conference and Exposition, GT2016-57292.

10.1115/GT2016-57292

2017, Li, D., Xu, C., Cheng, B., Xiong, M., Gao, X. and Deng, X., "Performance modeling and optimization of parallel LU-SGS on many-core processors for 3D high-order CFD Simulations," J. Supercomput., Vol.73, pp.2506-2524.

10.1007/s11227-016-1943-0

1954, Huffman, D.A., "The synthesis of sequential switching circuits," J. Franklin Institute, Vol.257, pp.161-190.

10.1016/0016-0032(54)90574-8

1995, Venkatakrishnan, V., "Implicit Schemes and Parallel Computing in Unstructured Grid CFD," ICASE Report, No.95-28.

1997, Sharov, D. and Nakahashi, K., "Reordering of 3-D hybrid unstructured grids for vectorized lu-sgs navier- stokes computations," Proceedings of the 13th Computational Fluid Dynamics Conference, USA, pp.131-138.

2005, Yoon, S., Jost, G. and Chang, S., "Parallelization of Gauss-Seidel Relaxation for Real Gas Flow," Tech. rep., NAS Technical Report, NAS-05-011.

2016, Gong, C., Bao, W., Liu, J., Tang, G. and Jiang, Y., "An efficient wavefront parallel algorithm for structured three dimensional LU-SGS," Comput. Fluids., Vol.134-135, pp.23-30.

10.1016/j.compfluid.2016.05.008

2013, Sato, Y., Hino, T. and Ohashi, K., "Parallelization of an unstructured Navier-Stokes solver using a multi-color ordering method for OpenMP," Comput. Fluids., Vol.88, pp.496-509.

10.1016/j.compfluid.2013.10.008

2023, Zhang, J., Dai, Z., Li, R., Deng, L., Liu, J. and Zhou, N., "Acceleration of a Production-Level Unstructured Grid Finite Volume CFD Code on GPU," Appl. Sci., Vol.13.

10.3390/app13106193

2000, Chen, R.F. and Wang, Z.J., "Fast, Block Lower-Upper Symmetric Gauss-Seidel Scheme for Arbitrary Grids", AIAA J., Vol.38, No.12, pp.2238-2245.

10.2514/2.914

2004, Zhang, L.P. and Wang, Z.J., "A block LU-SGS implicit dual time-stepping algorithm for hybrid dynamic meshes," Comput. Fluids., Vol.33, pp.891-916

10.1016/j.compfluid.2003.10.004

2018, Zhang, J.L., Ma, Z.H., Chen, H.Q. and Cao, C., "A GPU-accelerated implicit meshless method for compressible flows," J. Comput. Phys., Vol.360, No.1, pp.39-56.

10.1016/j.jcp.2018.01.037

2006, Lee, S. and Choi, D.W., "On coupling the Reynolds-averaged Navier-Stokes equations with two-equation turbulence model equations," Int. J. Numer. Meth. Fluids., Vol.50, pp.165-197.

10.1002/fld.1049

2006, CFL3D (Version 5.0) User's Manual.

2018, Fürst, J., "Development of a coupled matrix-free LU-SGS solver for turbulent compressible flows," Comput. Fluids., Vol.172, pp.332-339.

10.1016/j.compfluid.2018.04.020

1981, Roe, P.L., "Approximate Riemann Solvers, Parameter Vectors, and Difference schemes," J. Comput. Phys., Vol.43, No.2, pp.357-372.

10.1016/0021-9991(81)90128-5

2001, Kim, J.S. and Kwon, O.J., "Improvement on Block LU-SGS Scheme for Unstructured Mesh," Paper presented at Korean Society for Computational Fluids Engineering, pp.38-44.

1982, van Leer, B., "Flux vector splitting for the Euler equations," Proceedings of the Eighth International Conference on Numerical Methods in Fluid Dynamics, Lecture Notes in Physics, Vol.170, SpringerVerlag, New York, pp.507-512.

10.1007/3-540-11948-5_66

1959, Godunov, S.K., "A Finite Difference Method for the Computation of Discontinuous Solutions of the Equations of Fluid Dynamics," Mat. Sb., Vol.47, pp.271-306.

1994, Sparart, P. and Allmaras, S., "A One-Equation Turbulence Model for Aerodynamic Flows," La Recherche Aerospatiale, No.1, pp.5-21.

1994, Menter, F.R., "Two-Equation Eddy-Viscosity Turbulence Models for Engineering Applications," AIAA J., Vol.32, No.8, pp.1598-1605.

10.2514/3.12149

2021, Anderson, D.A., Tannehill, J.C., Pletcher, R.H., Munipalli, R. and Shankar, V., "Computational Fluid Mechanics & Heat Transfer (4th ed)," CRC Press, US.

1982, Adams, L. and Ortega, J., "A multi-color SOR method for parallel computation," Int. Conference Parallel Processing, pp.53-56.

1984, Evans, D.J., "Parallel S.O.R. iterative methods," Parallel Comput., Vol.1, pp.3-18.

10.1016/S0167-8191(84)90380-6

2008, Aric, A.H., Daniel A.S. and Pieter J.S., "Exploring network structure, dynamics, and function using NetworkX," Proceedings of the 7th Python in Science Conference (SciPy2008), Pasadena, CA USA, pp.11-15.

10.25080/TCWV9851

2022, Park, J.S., "pyBaram: Parallel compressible flow solver in high-performance Python for teaching and research," Software X, Vol.20, 101272.

10.1016/j.softx.2022.101272

2015, Lam, S.K., Pitrou, A. and Seibert, S., "Numba: A llvm-based python jit compiler," Proceedings of the Second Workshop on the LLVM Compiler Infrastructure in HPC, pp.1-6.

10.1145/2833157.2833162

2010, Park, J.S., Yoon, S.H. and Kim, C., "Multi-dimensional limiting process for hyperbolic conservation laws on unstructured grids," J. Comput. Phys., Vol.229, No.3, pp.788-812.

10.1016/j.jcp.2009.10.011

2024, Choi, S., Kim, D., Park, J. and Park, J.S., "Robust and accurate Roe-type Riemann solver with compact stencil: Rotated RoeM scheme," J. Comput. Phys., Vol.505, No.15.

10.1016/j.jcp.2024.112913

2009, Vassberg, J.C. and Jameson, A., "In persuit of grid convergence, part I: two-dimensional Euler equations," Proceedings of the 27th AIAA Applied Aerodynamics Conference, USA, Paper AIAA 2009-4114.

10.2514/6.2009-4114

1985, AGARD AR-211, "Test Cases for Inviscid Flow Field," AGARD.

3D ONERA M6 Wing Validation Case from NASA Turbulence Modeling Resource. (website : https://turbmodels.larc.nasa.gov/onerawingnumerics_val.html)

2001, Kim, K.H., Kim, C. and Rho, O.H., "Methods for the Accurate Computations of Hypersonic Flows: I. AUSMPW+Scheme," J. Comput. Phys., Vol.174, No.1, pp.38-80.

10.1006/jcph.2001.6873

Journal of Computational Fluids Engineering ISSN:1598-6071(Print) 3022-6252(Online) 한국전산유체공학회지

Preview

PERFORMANCE ANALYSIS OF LU-SGS METHOD USING MULTI-COLORING ALGORITHM AND BLOCK OPERATOR

ABSTRACT

MAIN

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

(22)

(23)

(24)

(25)

Fig. 1.

Example of the multi-coloring implementation to unstructured grid, (a) Simple unstructured grid, (b) Grid connection graph, (c) Result after applying multi-coloring algorithm

Fig. 2.

Pressure coefficient contour of transonic inviscid flow over NACA0012 airfoil

Table 1.

Lift and drag coefficients of transonic inviscid flow over NACA0012 airfoil

Fig. 3.

Comparison of convergence history for inviscid transonic flow over NACA 0012 airfoil in terms of iterations (a) and normalized computation time (b)

Table 2.

Iteration number and normalized computation time for inviscid transonic flow over NACA0012 airfoil until convergence

Fig. 4.

Boundary conditions of subsonic laminar flow over a flat plate

Fig. 5.

Comparison of velocity profile at x=0.2 with Blasius solution

Fig. 6.

Comparison of convergence history for subsonic laminar flow over a flat plate in terms of iterations (a) and normalized computation time (b)

Fig. 7.

Pressure coefficient contour(a) and plot(b) for transonic turbulent flow over RAE2822 airfoil

Fig. 8.

Comparison of convergence history for transonic turbulent flow over RAE2822 airfoil in terms of iterations (a) and normalized computation time (b)

Fig. 9.

Pressure coefficient contour of transonic turbulent flow over ONERA M6 wing

Table 3.

Maximum CFL number and linear ramping information of each time-integration method

(26)

Fig. 10.

Comparison of lift coefficient history for transonic turbulent flow over ONERA M6 wing in terms of iterations (a) and normalized computation time (b)

Table 4.

Convergence performance comparison between time integration methods for transonic turbulent flow over ONERA M6 wing

Fig. 11.

Mach number contour of supersonic turbulent flow around HB-2 standard model

Fig. 12.

Comparison of normal force coefficient history for supersonic turbulent flow around HB-2 standard model in terms of iterations (a) and normalized computation time (b)

Table 5.

Convergence performance comparison between time integration methods for supersonic turbulent flow around HB-2 standard model

Acknowledgements

References

Comparison of velocity profile at $x$ =0.2 with Blasius solution