强化学习的数学原理_西湖大学

强化学习的数学原理

课程详情

课程评价

spContent=这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。如果你对强化学习感兴趣，却不知道如何入门；如果你对强化学习一直有云里雾里、似懂非懂的感觉。相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”！截止2023年底，课程的配套教材已经在GitHub拿到了1.7K+星。

—— 课程团队

课程概述

大家好，我是来自西湖大学工学院AI分支的赵世钰。

为什么我要开发这门课和教材？

强化学习是人工智能的核心领域之一。近些年由于其在许多任务上的颠覆性表现，引起了各行各业科研人员的广泛关注。这是因为强化学习具有较强的数学性和系统性。一方面许多结果和算法背后蕴含着严谨的数学原理，另一方面许多概念和结果相互联系、环环相扣，需要从最开始一点一滴的学习才能确保正确、深入的理解。现在虽然已经有大量的学习资料，但是现有的强化学习的资料要么过于注重直观和文字描述，要么过于数学化需要专业背景。这门课程是由我从零开始设计开发，到2023年已经在西湖大学已经教授了5次，在此期间积累了大量的经验，最终形成了现在的课程。

这门课程和这本书的特点

这门课程从零开始、从数学角度、循序渐进地揭示强化学习的基本原理。

如果你是一个喜欢钻研、喜欢刨根问底的人；

如果你对强化学习一直有云里雾里、似懂非懂的感觉；

如果你不仅需要知道怎么用一个算法，更要理解其背后原理从而创新；

相信本课程能帮助你拨开迷雾看清强化学习的本质、“知其然更知其所以然”！

配套教材即将于2024年初由清华大学出版社和Springer Nature正式出版，国内外同步发行。

书籍PDF、课程视频、PPT全部上线。具体链接可以网上搜索。

截至2023年底，课程的配套教材已经在GitHub拿到了1.7K+星。

课程内容与需要基础

这门课不要求读者有任何强化学习的背景知识。因为它会从最基本的概念开始介绍，并且配上丰富的例子。

如果读者已经有了一定的强化学习背景，相信它也能给你带来新的理解。

课程将首先介绍基础概念、贝尔曼公式、贝尔曼最优公式等重要的基础工具。在此基础之上，介绍值迭代、策略迭代等经典算法，进而介绍不需要模型的蒙特卡洛方法、时序差分方法、函数近似方法、策略梯度方法，Actor-critic等方法。

期望这门课程能够真正的帮助大家跨过强化学习的门槛，进入到这个有趣而生机勃勃的领域！

课程大纲

预备知识

线性代数、概率与统计、随机过程

证书要求

为积极响应国家低碳环保政策， 2021年秋季学期开始，中国大学MOOC平台将取消纸质版的认证证书，仅提供电子版的认证证书服务，证书申请方式和流程不变。

电子版认证证书支持查询验证，可通过扫描证书上的二维码进行有效性查询，或者访问 https://www.icourse163.org/verify，通过证书编号进行查询。学生可在“个人中心-证书-查看证书”页面自行下载、打印电子版认证证书。

完成课程教学内容学习和考核，成绩达到课程考核标准的学生（每门课程的考核标准不同，详见课程内的评分标准），具备申请认证证书资格，可在证书申请开放期间（以申请页面显示的时间为准），完成在线付费申请。

认证证书申请注意事项：

1. 根据国家相关法律法规要求，认证证书申请时要求进行实名认证，请保证所提交的实名认证信息真实完整有效。

2. 完成实名认证并支付后，系统将自动生成并发送电子版认证证书。电子版认证证书生成后不支持退费。

参考资料

赵世钰，强化学习的数学原理（英文版），清华大学出版社和Springer出版社，2024年初

友情链接

关注我们

关于我们