强化学习：从棋盘游戏到真实机器人——AlphaGo、AlphaStar与机器人操控

2025年3月30日 AI科研

强化学习（Reinforcement Learning，RL）的数学框架基于马尔可夫决策过程（MDP）：智能体（Agent）在每个时间步观察状态（State），执行动作（Action），获得奖励信号（Reward），并转移至下一个状态。RL的目标是学习一个策略（Policy）使长期累积奖励最大化。与监督学习需要大量标注数据不同，RL只需要定义奖励函数，智能体通过与环境交互（自我对弈或模拟器）产生自己的训练数据。

AlphaGo与AlphaZero：棋盘游戏的突破

AlphaGo（DeepMind，2016）是RL历史上最广为人知的里程碑：在围棋这一被认为需要”直觉”和”人类思维”的复杂博弈中，以4:1击败世界冠军李世石。围棋的策略空间约为10^170，远超国际象棋的10^120，传统暴力搜索方法无法奏效。

AlphaGo Zero（2017）在不使用任何人类棋谱数据的前提下，通过纯自我对弈从零开始学习围棋，最终超越所有此前版本。AlphaZero进一步将同一算法推广至国际象棋和将棋，均以碾压性优势超越传统AI引擎，展示了自我博弈RL泛化能力的上限。

AlphaGo和AlphaZero的核心技术组合：深度神经网络（价值网络Value Network + 策略网络Policy Network）+ 蒙特卡洛树搜索（MCTS）+ 自我对弈强化学习，这一组合思路后来被广泛应用于其他复杂决策问题。

AlphaStar：实时策略游戏的挑战

相比围棋，实时策略游戏（RTS）对AI提出了额外挑战：不完全信息（战争迷雾）、连续高维动作空间（每帧数百种可能操作）和长时间策略规划。AlphaStar（DeepMind，2019）在《星际争霸II》中达到了大师级（Grandmaster）水准，超越99.8%的人类玩家，所用的时间策略复杂度被认为接近真实世界的规划任务。