spContent=随着计算机、互联网、云计算等技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。目前数据的生成每日以千万亿字节来计算,全球数据量每年以40%左右的速度在增长。与传统数据相比,大数据不仅仅是体量上大,数据的结构、粒度等方面都更加复杂。近年,随着人工智能的兴起,数据科学家和算法工程师成为职场中的香饽饽,大学培养的数据科学家和算法工程师数量远不能满足市场需求,缺口很大。
大数据、人工智能的核心方法论是数据挖掘与机器学习,数据科学家要有较好的统计学、数据挖掘和机器学习功底,能理解模型背后的原理和算法,熟练的编程能力,同时还需要熟悉相关业务知识。
本课程是数据挖掘和机器学习的入门课程,包含机器学习的主要经典方法,循序渐进、深入浅出,每个知识点尽量从实际的应用案例出发,以问题为导向,在解决问题中学习数据挖掘和机器学习的原理,并辅之以相关编程软件操作,理论联系实际,助你打开人工智能职业的大门。
随着计算机、互联网、云计算等技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。目前数据的生成每日以千万亿字节来计算,全球数据量每年以40%左右的速度在增长。与传统数据相比,大数据不仅仅是体量上大,数据的结构、粒度等方面都更加复杂。近年,随着人工智能的兴起,数据科学家和算法工程师成为职场中的香饽饽,大学培养的数据科学家和算法工程师数量远不能满足市场需求,缺口很大。
大数据、人工智能的核心方法论是数据挖掘与机器学习,数据科学家要有较好的统计学、数据挖掘和机器学习功底,能理解模型背后的原理和算法,熟练的编程能力,同时还需要熟悉相关业务知识。
本课程是数据挖掘和机器学习的入门课程,包含机器学习的主要经典方法,循序渐进、深入浅出,每个知识点尽量从实际的应用案例出发,以问题为导向,在解决问题中学习数据挖掘和机器学习的原理,并辅之以相关编程软件操作,理论联系实际,助你打开人工智能职业的大门。
—— 课程团队
课程概述
数据挖掘和机器学习是统计学和数据科学专业的核心课程之一,也是人工智能的核心研究领域之一,主要研究如何对数据进行分析和建模,从纷繁复杂的数据中挖掘出有用的规律,并用来指导实践工作。
本课程是国家“双一流”建设学科统计学的核心专业课程之一,同时也是国家一流本科专业建设点。课程负责人和主讲人方匡南是厦门大学经济学院统计学与数据科学系教授、博士生导师,国际统计学会 elected member。主要研究数据挖掘、统计机器学习、信用大数据、健康医疗大数据等。兼任厦门大学信用大数据与智能风控研究中心主任,厦门大学数据挖掘研究中心副主任,曾先后入选国家级高层次青年人才(中组部)、福建省“特支双百计划”青年拔尖人才、福建省新世纪优秀人才计划、福建省高校杰出青年科研人才培育计划等。主讲人每年在厦大开设《数据挖掘》的课程,至今已近10年,该课程深受学生喜欢,近10年受邀请在北京、上海等地开设暑期数据挖掘现场公开课,前来听课的学生众多有国外著名高校的教师、研究生,国内高校的教师、研究生,医药、金融等公司的数据分析人员、数据挖掘分析师等。主讲人在该课程的讲义内容基础上整理出版了教材《数据科学》,深受市场喜欢,销量在同类教材里名列前茅。
本课程是数据挖掘和机器学习的入门课程,主要讲授最经典的模型、方法以及应用。具体内容包含数据挖掘和机器学习基本概念,线性回归、线性分类(logistic分类,线性判别分析)、重抽样方法(交叉验证法、bootstrap),模型选择方法(逐步回归、lasso、主成分回归)、决策树、集成学习(bagging,randomforest,boosting)、支持向量机、聚类分析等。
本课程特色:(1)主要面向统计学类和经济类的高年级本科生、应用型研究生以及数据挖掘和机器学习的兴趣爱好者等;(2)课程内容全面,讲解深入浅出,在讲解模型原理的同时辅之以翔实的案例分析,让学生能够更快更好地深入理解每个模型;(3)本课程理论与实践结合,每章节结束都会相应地讲解本章所学的方法的R语言程序编写和实务操作,提高学生的动手能力和实际数据分析能力;(4)与线下课程相比,本课程增加了很多有趣的案例、动画效果,增加课程的趣味性。
授课目标
(1)以实际案例引入,深入浅出地讲解数据挖掘和机器学习方法,并辅之以讲解如何使用R语言编程实现,让学生不仅学会数据挖掘和机器学习的思想、原理和方法,而且理论联系实际,学会如何编程进行建模分析。
(2)学完本课程后,使学生基本上可以使用R语言进行实际的数据挖掘工作。尤其学会使用R语言对批量处理的实务数据分析,大大提高工作效率。
成绩 要求
为积极响应国家低碳环保政策, 2021年秋季学期开始,中国大学MOOC平台将取消纸质版的认证证书,仅提供电子版的认证证书服务,证书申请方式和流程不变。
电子版认证证书支持查询验证,可通过扫描证书上的二维码进行有效性查询,或者访问 https://www.icourse163.org/verify,通过证书编号进行查询。学生可在“个人中心-证书-查看证书”页面自行下载、打印电子版认证证书。
完成课程教学内容学习和考核,成绩达到课程考核标准的学生(每门课程的考核标准不同,详见课程内的评分标准),具备申请认证证书资格,可在证书申请开放期间(以申请页面显示的时间为准),完成在线付费申请。
认证证书申请注意事项:
1. 根据国家相关法律法规要求,认证证书申请时要求进行实名认证,请保证所提交的实名认证信息真实完整有效。
2. 完成实名认证并支付后,系统将自动生成并发送电子版认证证书。电子版认证证书生成后不支持退费。
课程大纲
导论
课时目标:让学生掌握数据科学,数据挖掘,机器学习等基本概念和主要研究问题,研究方法及软件和参考书
1.1数据科学发展历史
1.2 数据科学主要方法
1.3 数据科学研究的主要问题
1.4 软件与参考书
线性回归
课时目标:让学生掌握一元线性回归,多元线性回归以及相应的程序代码
2.1 问题的提出
2.2 一元线性回归参数估计
2.3 一元线性回归检验与预测
2.4 多元线性回归的估计
2.5 多元线性回归的检验与预测
2.6 R语言软件操作
线性分类
课时目标:让学生掌握常用的线性分类方法,probit,logistic模型,判别分析以及分类评价准则等
3.1 probit和logistic模型
3.2 判别分析1
3.3 判别分析2
3.4 分类评价准则
3.5 R语言软件操作1
3.6 R语言软件操作2
重抽样
课时目标:让学生掌握交叉验证和自助法等重抽样方法
4.1训练误差与测试误差
4.2 交叉验证法
4.3 自助法
4.4 R语言软件操作
模型选择与正则化
课时目标:让学生掌握常用的模型选择方法,子集选择法,基于压缩估计的模型选择法,基于降维的模型选择法
5.1 问题的提出
5.2 子集选择法
5.3 选择最优模型准则
5.4 基于压缩估计的变量选择1
5.5 基于压缩估计的变量选择2
5.6 基于压缩估计的组变量选择
5.7 基于降维的模型选择
5.8 R语言软件操作
决策树
课时目标:让学生掌握决策树的基本概念,分裂特征选择,决策树的生成和剪枝算法,CART算法等
6.1 决策树基本概念
6.2 决策树的分裂特征选择
6.3 决策树的生成和剪枝
6.4 CART算法
6.5 R语言软件操作
集成学习
课时目标:让学生掌握常用集成学习方法,bagging,随机森林,提升法,stacking算法等
7.1 集成学习基本概念
7.2 Bagging算法
7.3 随机森林
7.4 提升法
7.5 Stacking算法
7.6 集成学习总结
7.7 R语言软件操作
支持向量机
课时目标:让学生掌握支持向量机的原理,常用方法以及软件编程操作
8.1 支持向量机基本概念
8.2 最大间隔分类器1
8.3 最大间隔分类2
8.4 支持向量分类1
8.5 支持向量分类2
8.6 支持向量机
8.7 R语言软件操作
聚类分析
课时目标:让学生掌握聚类方法基本概念,Kmeans聚类,层次聚类方法
9.1聚类基本概念
9.2 kmeans聚类
9.3层次聚类
9.4 R语言软件操作
推荐算法
课时目标:让学生掌握常用的推荐算法,关联规则算法,协同过滤算法以及相应的软件程序操作
10.1 关联规则基本概念1
10.2 关联规则基本概念2
10.3 关联规则Apriori算法
10.4 协同过滤算法1
10.5 协同过滤算法2
10.6 R语言软件操作
展开全部
预备知识
《数据分析》
《线性代数》
《概率论》
《数理统计》
《线性回归》
参考资料
方匡南. 数据科学. 电子工业出版社. 2018
方匡南 朱建平 姜叶飞. R数据分析. 电子工业出版社.2015. 2
James G, Witten D, Hastie T, et al. An introduction to statistical learning. New York: springer, 2013.
Hastie, Tibshirani, and Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer.