이 GTA 5 스토리 모드는 AI 기반 NPC 대화의 엄청난 가능성과 문제를 보여줍니다.

This GTA 5 story mode shows the tremendous potential and issues of AI-based NPC dialogues.

로스 산토스의 길을 돌아다니며 Grand Theft Auto 5에서 주민들과 자유롭게 대화할 수 있다면 어떨까요? 그리고 그들은 실제로 진짜 사람처럼 당신에게 진실같은 맞춤 대화로 응답할 수 있다면 어떨까요?

그것이 바로 Sentient Streets의 목표입니다. 이것은 경력 있는 모드 제작자 Bloc이 NexusMods에서 현재 사용 가능한 새로운 이야기 기반의 GTA 5 모드입니다.

이 모드에서 플레이어는 신참 경찰관으로서 Los Santos에서 인공지능의 상승과 관련된 음모를 조사합니다. 한편, 현실에서는 AI가 이 모드의 세계 전반에 걸쳐 NPC와의 대화를 가능하게 만듭니다.

Newscast: 2023년 남은 기대작들. YouTube에서 시청하세요.

Bloc은 Eurogamer에게 “나는 항상 GTA와 같은 가상 세계를 만드는 아이디어를 가지고 있었지만, 실제 사람들처럼 NPC와 상호작용하고 대화할 수 있는 버전을 만들고 싶었습니다.”라고 말했습니다. 그는 이전에 Bannerlord와 Skyrim의 모드에서 AI 기반의 대형 언어 모델(Large Language Models, LLMs)을 활용한 작업을 해왔으며, 이 기술의 미래에 대한 불만을 보았다고 합니다.

Bloc은 “게임에서 LLM을 사용하면 오직 캐릭터들과 대화만 할 수 있기 때문에 ‘속임수’로 불렸었습니다”라며 “나는 그 아이디어에 동의하지 않았지만, 동의만으로는 부족했습니다. 그래서 그것을 증명하고 싶었습니다.”라고 말했습니다.

Bloc은 이 모드의 이야기에서 AI에 대한 두려움을 활용하며, 플레이어는 보이지 않는 AI를 숭배하는 치명적인 이단 사이에서 역할을 맡습니다. 이 과정에서 약 30개의 AI NPC와 실시간으로 자유로운 대화를 나눌 수 있습니다.

Bloc은 “이 모드를 통해 AI를 비디오 게임에 사용한다는 것이 완전한 무작위성과 예측할 수 없는 게임 플레이를 의미하는 것은 아니라는 것을 보여줄 수 있었으면 좋겠습니다. 이야기를 전달하고자 하는 게임들도 LLM을 사용하여 플레이어에게 독특한 롤플레잉 경험을 제공할 수 있다는 것을 보여주기 위해 노력했습니다.”라고 말했습니다.

Sentient Streets에서 발견되는 NPC 대화는 Inworld의 Character Engine으로 구동됩니다. Bloc은 초기 액세스에서 여러 기능을 사용할 수 있었습니다. Inworld는 AI NPC를 구동하는 도구로, 웹사이트에 따르면 “다중 모달 인간 표현이 가능한 캐릭터”를 제공합니다. 이 도구는 매개변수를 입력하여 캐릭터를 생성할 수 있으며, 이후로는 말하기가 자유롭게 작동하며, 음성 합성 및 텍스트 음성 변환 소프트웨어 회사 ElevenLabs의 기술을 통합합니다.

“ElevenLabs의 실시간 음성 기술을 도입하여 발전된 AI NPC 생성 시스템을 보완하고 있어 기쁩니다.”라고 Inworld의 최고 제품 담당자인 Kylan Gibbs가 Sentient Streets의 언론발표에서 말했습니다. “강화된 음성 기능에 대한 커뮤니티 요구에 응답함으로써 캐릭터를 더욱 믿을 수 있고 생동감 있게 만들고 있습니다. 우리는 대화 트리와 스크립트 대화를 넘어설 수 있는 도구를 개발자에게 제공하고 있습니다.”

또한 ElevenLabs의 CEO인 Mati Staniszewsi는 “우리의 선도적인 AI 음성 소프트웨어와 Inworld의 플랫폼을 결합함으로써 몰입형 게이밍 경험의 한계를 넓히고 게임 세계에 추가적인 가능성을 제공하고 있습니다.

“우리의 다기능 도구는 AI 캐릭터에 최고 품질의 음성 오디오를 제공하며, 문맥적 단서에 맞게 사람과 같은 강세와 억양을 적용합니다. 이 개발에 대해 매우 흥분하며 넓은 개발자 커뮤니티에게 어떻게 사용될지 기대를 하고 있습니다.”

Bloc은 Inworld와의 통합이 “매우 쉬웠다”고 설명했으며, 소프트웨어는 플레이어가 기대하지만 항상 제공되지는 않는 음성 인식, 캐릭터 목소리, 감정과 같은 여러 기능을 제공합니다.

이 모드 제작자는 Sentient Streets의 모드 출시와 함께 YouTube에 Sentient Streets의 비디오를 게시했으며, 그 결과는 확실히 놀라운 것입니다. 플레이어는 특정 NPC에게 다가가서 그들의 주의를 끈 후, 마이크로폰을 통해 대화를 시작하기 위해 버튼을 누릅니다. 그러면 AI가 자유롭게 응답합니다. Bloc은 처음에는 대화를 통해 파트너 경찰관을 선택하고 그들의 이름과 배경 이야기를 물어보는 등의 대화를 나누며 나중에는 범죄 현장의 용의자와 대화하여 정보를 얻기 위해 자유롭게 롤플레잉합니다.

Bloc의 AI가 제공하는 GTA 5: 스토리 모드와 AI NPC 모드

물론 완벽하지는 않습니다. AI는 대화를 처리하는 데 시간이 필요하며 가끔 오류가 발생하고 반복되기도 합니다. 하지만 개선을 통해 이러한 도구의 잠재력은 눈부시게 보입니다.

Bloc의 모드는 출시 한 주 동안 3000회 이상 다운로드되었습니다. 그래서 대규모로 사용될 때 AI가 이상하거나 재미있는 응답을 내보냈나요?

Bloc은 “모드를 테스트하는 동안에도 AI가 ‘교활한’ 대답이나 예상치 못한 반응으로 나를 웃겼습니다.”라고 말했습니다. “몇몇 유튜버가 모드를 플레이하는 스트림도 본 적이 있습니다. 재미있는 대화에서 유튜버가 그의 파트너를 자신이 저지른 범죄로 비난하자, AI 대장은 거짓말을 들쳐내고 그를 거짓말쟁이로 비난했습니다. 또 다른 대화에서는 유튜버가 미친 이단 신도와 대화를 나누면서 그를 괴롭히기 위해 아무 상관없는 질문을 하여 그를 미치게 만들었습니다.”

“가끔 AI가 내 명백한 질문에 정말 똑똑한 대답을 해주는 걸 듣고는 놀라워하곤 해요. 그리고 그들이 어떻게 상황을 뒤집는지 보는 건 항상 재미있어요.”

물론, AI의 사용은 예민한 문제입니다. 유비소프트는 올해 초에 배경 NPC와 함께 사용하기 위해 대본 작성을 돕는 AI 도구를 공개했는데, 이로 인해 주니어 작가들의 일자리가 사라질 걱정이 일었습니다. 한편, 많은 배우들은 AI에 대해 회의적입니다 – 특히 허락 없이 음성을 사용하는 딥페이크 AI 기반 모드의 등장에 대해서는 더욱 불신이 많습니다.

Inworld는 ElevenLabs의 음성 라이브러리를 사용하며, 직접 배우를 고용하지는 않습니다. 하지만 ElevenLabs는 우려하는 배우들에 의해 지적된 AI 복제 도구입니다. 해당 서비스 약관에 따르면 사용자들은 AI 음성 생성에 사용되는 파일의 창조자이자 소유자이거나, 해당 파일에 식별 가능한 개인의 서면 동의를 갖고 있어야 합니다. 그러나 ElevenLabs의 음성 데이터가 어디서 유래되었는지는 여전히 알기 어렵습니다.

“플랫폼에서 기본적으로 제공되는 표준 음성은 AI 알고리즘에 의해 무작위로 음성 특성을 샘플링한 것입니다(다른 어떤 특정 개인의 음성을 모방하거나 복제하지 않습니다) 또는 법적으로 계약된 기간 한정의 음성 배우와의 제휴를 통해 개발된 것입니다. 이로 인해 새로운 사용자 정의 AI 음성이 생성됩니다,” ElevenLabs 대변인은 Eurogamer에게 한 발언에서 말했습니다. “ElevenLabs는 해당 개인의 명백한 허락 없이 실제 사람의 음성을 기반으로 한 AI 음성을 플랫폼에서 제공하지 않습니다.

“ElevenLabs는 또한 사용자들이 커뮤니티 기반 음성 라이브러리의 일부로 새로운 무작위 생성 AI 음성을 만들고 공유할 수 있도록 허용합니다. 별도로, 사용자들은 자신의 작업을 위해 클론 음성을 생성할 수 있습니다만, 해당 음성은 음성 라이브러리와 공유할 수 없습니다. 서비스 약관을 위반하는 사용자들은 플랫폼에서 제제를 받게 됩니다 – 모두가 이 약관을 위반한 콘텐츠를 신고하도록 권장됩니다.”

Bloc은 이전에 Inworld가 ElevenLabs 음성 라이브러리에서 도구에 사용할 음성을 선택했다고 확인했다고 말했습니다.



이미지 크레딧: Bloc

그래도 비디오 게임 개발에서 AI 사용에 대한 일반적인 우려가 남아있습니다. Bloc은 스튜디오들이 “분명히 AI 사용에 대해 조심해야 한다”고 이야기합니다 – 특히 안전 기능의 사용과 개인정보 보호에 있어서.

“Inworld는 언어 모델의 안전 기능을 완화했는데, 무장한 종교 당원이 당신과 대화를 할 때 친절하고 도움이 되는 것은 말이 되지 않기 때문입니다,” Bloc은 설명했습니다. “당신은 그 사람이 공격적이고, 당신에게 욕을 하며, 공통점을 찾기가 어려운 성격을 가진 사람이 될 것을 기대할 것입니다. 그러나 이 규칙의 완화는 항상 좋은 결과를 가져오지는 않을 수 있습니다.”

개발자들은 신뢰할 수 있는 캐릭터화와 독성에 대한 AI 음성 제공 사이의 균형을 유지해야 할 필요가 있습니다. 그는 계속해서 말합니다.

“엄격한 LLM은 재미없지만, 비디오 게임에서 지나치게 독성이 있는 LLM도 재미있거나 안전하지 않습니다,” Bloc은 말했습니다. “이 균형은 해당 게임의 필요에 따라 조심스럽게 조정되어야 합니다.”

개인정보 보호 문제에 대해서는, Bloc은 인간과 같은 대화 기능으로 인해 사람들이 LLM을 인간화하는 것을 본 적이 있다고 말했습니다. “이로 인해 사람들은 채팅 AI와 개인정보와 세부 정보를 공유할 수 있게 되는데, 이는 개인에게 매우 문제가 될 수 있는 경우도 있습니다. 어떤 국가에서는 이러한 개인 정보가 매우 문제가 될 수 있습니다. 언어 모델과 함께 작업하는 개발자들에게는 개인정보 침해를 피하기 위한 조치를 갖는 것이 최우선 과제 중 하나가 되어야 한다고 생각합니다.”

Sentient Streets에 대해서는, Bloc은 지금까지 긍정적인 피드백을 받았다고 말하며, 이런 종류의 AI로 인해 플레이어들이 게임을 더욱 즐길 수 있다고 말했습니다. 그는 이러한 콘텐츠가 앞으로 게임 산업에서 자리를 잡을 것이라고 믿지만, 반드시 록스타로부터 그런 변화가 오는 것은 아닐 것이라고 말합니다.

“Grand Theft Auto 브랜드는 현재 게임 산업에서 가장 큰 브랜드일 수 있지만, 록스타가 다음 작품에서 이렇게 새로운 것을 적용하려고 할 가능성은 낮습니다,” Bloc은 말했습니다. “하지만 앞으로 GTA와 유사한 많은 게임들이 이 기술을 사용한 것을 볼 수 있을 것입니다. 아니면 아마도 GTA 6을 위한 큰 모드들도 볼 수 있을 것입니다.”

GTA 6가 다음 해에 출시될 것으로 예상되므로, 우리가 알아내기까지는 오랜 시간이 걸리지 않을 것입니다.