最近收听了好友吴翼的播客,收获了很多强化学习的知识,也收获了很多人生的道理。
吴翼是研究强化学习领域的专家。他曾在 OpenAI 工作,是一线的 AI 创业者,现在清华叉院当助理教授(非常年轻)。
这期播客干货满满,是近期最有价值的播客之一。
我从中摘要了一些精华,分享给大家。
吴翼首先讲述了机器学习(ML)和强化学习(RL)的区别。
传统的机器学习,好比训练一个学生去记住大量标准答案,比如看图片认猫狗、人脸和指纹识别。
这类问题通常有两个特点:
一步到位,答案明确。
但 RL 和 ML 有很大的不同,RL 就像是在玩一场游戏:
第一,游戏不是一步到位,而是在过程中有非常多的动作和决策。
比如我们玩一个打乒乓球的游戏,发球、接球、回球,每一个动作都是非标的,而且不同的选择会直接影响最终的结果。
第二,赢得一场游戏的方式可能有成千上万种,并没有唯一的标准答案。
RL 要解决的问题没有标准答案,每一步的具体决策也不受约束,但当完成所有决策后,会有一个反馈机制来评判它最终做得好还是不好。
强化学习就像游戏,也像极了真实的人生。
我们面临无数选择,都不是简单的是非对错,也没有人给我们“通关攻略”。
我们只能不断尝试,接收反馈,调整策略,继续尝试。