포털 프렐루드 RTX는 그래픽 기술의 최전선에 위치한 클래식 소스 모드를 선보입니다.

포털 프렐루드 RTX 그래픽 기술 최전선의 클래식 소스 모드

Portal: Prelude RTX는 Nvidia의 RTX Remix 기술의 인상적인 쇼케이스입니다. 이 기술은 이전에는 Portal의 Source 모드였으나, 시각적인 기능과 기술을 갖춰 고급 AAA 게임을 뛰어넘는 수준으로 만들어줍니다. 이는 정말로 장관입니다. 미래에는 RTX Remix 모딩 툴이 출시되면 많은 패스 트레이스 리마스터가 출시될 것을 기대해 봅니다.

더 흥미로운 점은 Prelude가 RTX IO를 지원하는 최초의 게임이라는 것입니다. RTX IO는 Vulkan에서 동작하는 GPU 가속화 압축 방식입니다. 이는 사실상 Direct Storage 1.2의 Nvidia 버전으로, 이번 달 말에 PC에서 출시되는 Ratchet and Clank: Rift Apart에도 포함되어 있습니다. 이의 목적은 PC 플랫폼에서 게임 로딩과 에셋 스트리밍을 가속화하는 것이며, 여기에 포함된 것을 통해 해당 기술이 어떻게 동작하는지 확인할 수 있는 좋은 기회가 제공됩니다.

역사적으로 로딩은 하드 드라이브에서 텍스처나 모델과 같은 게임 데이터가 시스템 메모리로 전송되고, 그런 다음 CPU의 제어 하에 GPU로 이동되는 방식으로 진행되었습니다. 이는 디스크가 물리적으로 회전하고 데이터를 찾은 다음 데이터를 블록 단위로 로드하는 것이므로 지연 시간이 많이 걸리는 직렬적인 방식이었습니다.

여기에는 Portal: Prelude RTX에서 RTX IO에 대한 Alex Battaglia의 전체 비디오 프레젠테이션이 있습니다.

이 기법은 상대적으로 작은 게임 에셋이 HDD에서 로드되는 데는 충분히 잘 작동했지만, 게임의 크기가 수백 기가바이트에 이르고 매우 상세한 에셋이 되면 이러한 모든 데이터는 압축되어 사용 가능한 저장 공간과 대역폭을 최대한 활용하기 위해 압축 해제되어야 합니다. 이는 에셋이 GPU에서 사용되기 전에 CPU에 의해 압축 해제되어야 함을 의미하며, 이로 인해 추가적인 시간과 CPU 부담이 발생하여 기존의 방식이 제대로 작동하지 않게 됩니다.

다행히도 SSD에서의 빠른 저지연 플래시 스토리지의 등장으로 인해 시간을 줄이기 위해 데이터를 순차적으로 읽을 필요가 없어졌습니다. 우리는 새로운 표준을 만들 수 있습니다. 첫째로, 예전의 Windows I/O 표준과 비교하여 로드 시간을 대폭 줄이기 위해 데이터를 병렬로 액세스하고자 합니다. 둘째로, 데이터가 압축 해제되기 전에 저장소에서 GPU로 이동되도록 보장하고자 합니다. GPU는 많은 코어를 갖고 있으며, 병렬 처리 작업을 수행하는 압축 해제 등에 대해 CPU보다 우수한 성능을 발휘하므로 이 접근 방식은 많은 시간을 절약할 수 있습니다. 이것이 RTX IO와 Direct Storage 1.2를 위해 구상된 새로운 시스템이며, 로딩 시간을 더 빠르게 제공하고 게임 플레이에서 스트리밍 용도로 사용될 때 CPU 부하를 줄여 성능을 향상시킬 수 있습니다.

RTX IO의 경우, Portal Prelude RTX에서는 디스크의 데이터가 GDeflate 형식을 사용하여 압축되며, 일시적으로 시스템 메모리로 이동한 후 GPU로 이동하여 그곳에서 압축이 해제됩니다. 이 GDeflate 형식은 Nvidia의 오픈 GPU 압축 표준으로, Microsoft와 Kronos 그룹에 제공되었으며, DirectX를 사용하는 Direct Storage 1.2 게임에서 Nvidia, AMD 및 Intel의 GPU를 모두 지원하는 형식으로 사용될 것으로 예상됩니다.

이 설명은 비디오로 보는 것이 더 좋지만, RTX IO의 주요 아이디어는 GPU에서 데이터를 직접 압축 해제하여 CPU 부담을 줄이고, SSD에서 데이터를 병렬로 읽어 로딩 시간을 빠르게 하는 것입니다.

반면에 Portal: Prelude RTX는 GPU 압축을 위한 약속된 벤더 중립적 표준 호출이 없는 Vulkan 그래픽 API를 사용합니다. 현재로서는 Nvidia에서 제안한 확장 기능만 있는 것으로 알고 있습니다. Vulkan의 Direct Storage Equivalent를 위해 Kronos 그룹에서 전면적으로 채택될 수 있는 것은 아마도 이러한 Nvidia의 확장 기능이 될 것입니다. 그 동안 Portal Prelude: RTX의 빠른 GPU 압축은 이러한 특정 확장 기능을 지원하는 드라이버에서만 작동합니다. 즉, Nvidia RTX 그래픽 카드에서만 작동합니다.

그러나 Portal Prelude RTX는 여전히 보다 전통적인 로딩 패러다임에서 작동하므로 RTX IO는 프레임 속도를 높이지 않습니다. 어쨌든, RTX Remix는 게임 엔진을 대체하거나 레벨을 분할하고 로드하는 방식을 변경하지 않습니다. 대신, RTX Remix는 렌더링 방식과 에셋 로딩 방식을 변경하는 것입니다. 이는 Ratchet and Clank: Rift Apart와는 다릅니다. 해당 게임도 GPU 압축을 사용하여 게임 플레이를 가속화할 것으로 예상됩니다. 따라서 Portal Prelude RTX는 주로 로딩 시간과 텍스처 로드 시간에 대한 향상을 얻게 됩니다.

여기에서 기술이 얼마나 영향을 미치는지 테스트하기 위해, RTX IO를 끈 상태에서 500MB/s로 제한된 SATA SSD에서 실행되는 게임 빌드를 테스트했습니다. 게임은 비교적 빠르게 로드되지만 텍스처는 최고 품질에 도달하는 데 시간이 걸립니다. RTXIO의 GDeflate 압축 없이 디스크에 있는 게임은 완전히 압축 해제되어 크기가 약 60% 더 큽니다. 따라서 텍스처를 VRAM으로 이동하기 위해 대역폭이 상당히 사용되며, 마지막 텍스처를 로드하는 데 약 1초 이상이 걸립니다. RTX IO를 켠 상태에서 동일한 텍스처는 SATA SSD에서 절반 이상의 시간으로 로드됩니다.

구성 게임 로드 텍스처 로드
12900K + 500MB/s SATA SSD + RTX IO 끔 1.13초 2.36초
12900K + 500MB/s SATA SSD + RTX IO 켬 0.67초 1.16초
12900K + 3.5GB/s NVMe SSD + RTX IO 끔 0.57초 1.45초
12900K + 3.5GB/s NVMe SSD + RTX IO 켬 0.53초 1.07초

실제로는 큰 차이가 아니며, 0.5초는 순식간에 지나가지만 시간 절반으로 줄이는 것은 여전히 인상적입니다. 다양한 구성에서 여러 번의 테스트를 한 후에 흥미로운 결론을 도출할 수 있었습니다. 첫째, RTX IO를 사용하는 500MB/s SATA 드라이브가 RTX IO를 끈 3.5GB/s NVMe 드라이브를 이깁니다 – 매우 놀라운 결과입니다. 둘째, CPU와 GPU 하드웨어 차이가 로딩 시간에 큰 영향을 주지 않았습니다. RTX 2060 Super + Core i9 12900K 시스템은 플래그십 RTX 4090과 같은 CPU와 거의 동일한 성능을 발휘했습니다. RTX 4070과 Ryzen 5 3600 시스템도 로드 시간 측면에서 매우 유사했습니다.

따라서 Portal: Prelude RTX는 PC에서 이 기술의 유망한 첫 시도이지만, 첫 자리에 오래된 로딩 패러다임을 사용하는 게임에 적용되므로 재미는 그다지 없습니다. Ratchet and Clank: Rift Apart와 같이 액티브 스트리밍을 사용하고 어떠한 종류의 로딩 화면도 없는 게임에서 이 기술이 최선의 효과를 발휘할 것입니다. 물론, 7월 26일에 PC로 출시되는 이 게임에 대한 보도를 곧 기대하고 있으니 기대해 주세요.