王者荣耀AI突破：TiG框架助AI掌握高阶战略思维

41 5 2025-10-06

腾讯研究团队于2025年9月推出TiG（Think in Games）框架，以《王者荣耀》为训练环境，成功填补了大型语言模型（LLM）在战略推理与实时决策方面的能力差距。该框架通过40种预定义宏观动作（如“推上路”、“夺龙”）将游戏状态转化为语言建模任务，采用监督学习（SFT）与强化学习（GRPO）两阶段训练法，使Qwen3-14B模型在游戏决策中达到90.91%的准确率，超越参数量更大的DeepSeek-R1（86.67%），并保留原有文本理解与数学推理能力。 TiG框架旨在解决现有AI模型的功能鸿沟问题。传统AI模型在游戏中能正常游玩，却无法理解自身决策；而语言模型虽然能推理策略，却难以执行操作。TiG框架通过让模型在游戏中同步思考和行动，实现了这一目标。研究团队以《王者荣耀》为训练范本，定义了40种宏观行动，如推上路、击杀暴君、守家等，并要求AI模型在每个场景下选择最佳策略并解释原因。训练分为两个阶段：首先在监督学习中学习策略的基本机制，然后通过奖励机制进行强化学习，正确行动得1分，错误行动得0分。研究团队测试了多种语言模型，包括Qwen2.5（7B、14B、32B）、Qwen3-14B模型，并使用DeepSeek-R1大模型作为对照组。他们从DeepSeek-R1中提取高质量训练数据，并使用群体相对策略优化（GRPO）技术，比较不同策略之间的优劣。最终，经过TiG框架训练的模型不仅能制定行动计划，还能解释原因。例如，AI会指出某个防御塔防守薄弱，是理想的进攻目标，但需要注意埋伏的敌人。模型训练后仍保持原有的文本理解、数学推理与问答能力。测试结果显示，Qwen3-14B模型的决策准确率达到90.91%，超越参数量更大的DeepSeek-R1（86.67%），而Qwen2.5-32B和Qwen2.5-14B模型的准确率也分别从66.67%和53.25%提升至86.84%和83.12%。