强化学习的数学原理
分享
课程详情
课程评价
spContent=这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。如果你对强化学习感兴趣,却不知道如何入门;如果你对强化学习一直有云里雾里、似懂非懂的感觉。相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”!截止2024年6月,课程的配套教材已经在GitHub拿到了2400+星。
—— 课程团队
课程概述

大家好,我是来自西湖大学工学院AI分支的赵世钰。


为什么我要开发这门课和教材?


强化学习是人工智能的核心领域之一。近些年由于其在许多任务上的颠覆性表现,引起了各行各业科研人员的广泛关注。然而许多读者发现强化学习入门并非易事。这是因为强化学习具有较强的数学性和系统性。一方面许多结果和算法背后蕴含着严谨的数学原理,另一方面许多概念和结果相互联系、环环相扣,需要从最开始一点一滴的学习才能确保正确、深入的理解。现在虽然已经有大量的学习资料,但是现有的强化学习的资料要么过于注重直观和文字描述,要么过于数学化需要专业背景。这门课程是由我从零开始设计开发,到2024年已经在西湖大学已经教授了5次,在此期间积累了大量的经验,最终形成了现在的课程。


这门课程和这本书的特点


这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。

  • 如果你是一个喜欢钻研、喜欢刨根问底的人;
  • 如果你对强化学习一直有云里雾里、似懂非懂的感觉;
  • 如果你不仅需要知道怎么用一个算法,更要理解其背后原理从而创新;

相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”!


书籍PDF、课程视频、PPT全部上线。具体链接可以网上搜索。截至2024年六月,课程的配套教材已经在GitHub拿到了2400+星。


课程内容与基础要求


课程将首先介绍基础概念、贝尔曼公式、贝尔曼最优公式等重要的基础工具。在此基础之上,介绍值迭代、策略迭代等经典算法,进而介绍不需要模型的蒙特卡洛方法、时序差分方法、函数近似方法、策略梯度方法,Actor-critic等方法。


这门课不要求读者有任何强化学习的背景知识。因为它会从最基本的概念开始介绍,并且配上丰富的例子。如果读者已经有了一定的强化学习背景,相信它也能给你带来新的理解。不过,这门课需要读者具有线性代数、高等数学、概率论等基础知识。


最后,期望这门课程能够真正的帮助大家跨过强化学习的门槛,进入到这个有趣而生机勃勃的领域!

课程大纲
预备知识

 线性代数、概率与统计、随机过程

参考资料

赵世钰,强化学习的数学原理(英文版),清华大学出版社和Springer出版社,2024年6月