Araştırmacılar, yapay zeka (AI) modellerinin uzun vadeli strateji geliştirme ve insan oyuncularla veya diğer AI sistemleriyle işbirliği yapma yeteneklerini değerlendirmek amacıyla popüler masaüstü rol yapma oyunu Dungeons & Dragons’ı (D&D) oynattı. Bu çalışmalar, 2-7 Aralık tarihlerinde San Diego’da düzenlenen NeurIPS 2025 konferansında sunuldu. D&D, yaratıcılık ve katı kuralların eşsiz birleşimi sayesinde ideal bir test ortamı olarak değerlendiriliyor.
Araştırmalarda, Dungeons & Dragons oyununda başarılı olabilmek için AI modellerinin plan yapabilme, iletişim kurabilme, hafızalarını kullanabilme ve rakiplerinin taktik ve niyetlerine karşı duyarlı olmaları gerektiği belirtildi. D&D, net bir şekilde tanımlanmış kural seti ve mekanikleri ile doğal dil ile oyun düzeni arasında bir köprü oluşturarak yapay zeka ile insan etkileşimini doğrudan mümkün kılıyor.
Deneylerde tek bir model Dungeon Master (DM) olarak hikaye yaratıp canavarların rolünü üstlenirken, diğer modeller veya insan oyuncular kahraman rollerini üstlendiler. Geliştirilen D&D Agents adlı çalışma çerçevesinde, modeller insan oyuncularla veya diğer büyük dil modelleriyle oynayabiliyor.
Çalışmada üç farklı AI modeli -DeepSeek-V3, Claude Haiku 3.5 ve GPT-4- kullanıldı. D&D, bu modellerin uzun vadeli planlama ve araç kullanma yeteneklerini değerlendirmede bir ölçüt olarak kullanıldı. Claude Haiku 3.5, özellikle zorlu senaryolarda en iyi savaş verimliliğini gösterdi. Daha kolay senaryolarda ise kaynak koruma açısından tüm modeller benzer performans sergiledi. GPT-4, Claude Haiku 3.5’in hemen arkasında yer alırken, DeepSeek-V3 en zorlanan model oldu.
Modellerin karakterleri canlandırma kabiliyeti de değerlendirildi. Claude Haiku 3.5, oynadığı karakterin sınıfına veya canavara uygun diyaloglar yaratırken, DeepSeek-V3 daha tekrar eden ifadeler kullandı. İlerleyen dönemlerde, araştırma ekibi, tüm anlatı ve çatışmaların modellenebilecekleri daha kapsamlı D&D kampanyalarını uygulayarak AI’nın yaratıcılık ve insan girdilerine veya diğer modellerden gelen çıktılara karşı doğaçlama yapabilme kabiliyetini daha fazla stres testi altında değerlendirmeyi hedefliyor.



