课程内容安排
本课程是机器学习的一个入门级课程,系统的介绍了常用算法的思想、以及数据建模的整个流程(包括数据的收集处理、模型的建立、模型选择与模型诊断、模型的改进策略等),同时介绍了Python基本语法、面向对象编程以及常用算法的代码实现。主要面向对数据分析感兴趣的本科生、研究生及数据科学爱好者。
课程一共12章,其中,第1-2, 5-7,10-12章主要以吴恩达老师的Coursera《Machine Learning》讲稿为主要内容;第6章部分内容参考了李沐老师的《动手学深度学习》教材;第3-4,8-9章是课程组自编讲义(第8-9章部分内容参考了周志华老师的《机器学习》教材)。
课程的特点
1 课程内容的安排具有较强的递进式,除第3-4章相对独立外,其他章节建议按顺序学习,以确保课程的完整性。
2 每节教学视频力争在较短的时长,传达一个算法或概念的本质思想(因此对于初学者有些计算细节需要大家结合课件PPT自行完成推导)。
3 同时重视机器学习和Python语言入门教学。
4 机器学习教学注重对处理数据的理念以及不同算法思想的内在联系的理解。
本课程适用的对象及使用建议
(1)零基础的同学,想比较规范、系统的入门机器学习课程。
(2)之前接触过机器学习或数据挖掘,但没有形成系统性知识架构。
(3) 已具有系统的数理统计知识体系,希望重塑机器学习的观点,但又不想在课堂学习上花大量的时间。
对于第一种情形,建议每个教学视频多看一遍,每次学习1-2个视频为佳,理解好整个知识脉络,以及细节推导。
对于第二、三种情形,可以快速学习,也就是说您可以通过3个小时,迅速的重构整个机器学习知识体系 (除3、4章python实现部分,其余的视频时长3个小时),避免了大量的冗余课堂学习。
对于没有编程基础的同学,第3、4章需要多花时间练习,如果对Python实现不感兴趣的同学,这部分可以跳过。此外,第9章的KKT条件和再生核希尔伯特空间涉及到凸优化和泛函分析的知识,对本科生可仅作了解。
本课程的教学目的旨在使学生掌握机器学习中的核心算法及其基本理论,并会用Python语言实现。从而学会利用机器学习,解决金融、信息工程等领域中的实际问题。重视课程知识体系的同时,要把马克思主义立场观点方法的教育与科学精神的培养结合起来,提高学生正确认识问题、分析问题和解决问题的能力。培养学生探索未知、追求真理、勇攀科学高峰的责任感和使命感。
线性代数、微积分、概率论与数理统计(或统计学)
课堂测试与作业占40%、期末考试占60%,按百分制计分,60分及以上为合格,80分及以上为优秀。
1 吴恩达,机器学习( Coursea 课程讲稿,本课程的参考教材) .
2 James, Witten, Hastie and Tibshirani (2013), An Introduction to Statistical Learning with Applications in R, Springer (中译本《统计学习导论-基于R应用》,机械工业出版社).
3 Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning, Data Mining, Inference, and Prediction. Second Edition, 2008.
4 Christopher Bishop,Pattern Recognition and Machine Learning,2006.
5 Machine Learning: A Probabilistic Perspective, K. P. Murphy
6 李沐等,动手学深度学习(Pytorch版),人民邮电出版社,2023.
7 周志华,机器学习,清华大学出版社,2016.
8 李高荣, 统计学习,高等教育出版社,2024.
9 李航,统计学习方法,清华大学出版社,2012.
问: 没有编程基础是否可以学习该课程。
答:可以,机器学习是一门实用的数据分析课程,需要会一门语言,我们课程几乎是零基础起步,但没有学过编程的同学,需要花更多的时间练习编程。
声明
严禁在本教学平台发布与课程无关的非法、违禁信息,且拒绝暴力文字,提倡做文明人,共铸美好心灵。