课程以数据挖掘的过程为线索,完整全面地介绍了数据挖掘的生命周期过程及其所涉及到的概念、方法、技术,并着重论述了数据挖掘的算法含义和算法实现。
课程中通过详尽的示例,充分展示了数据挖掘算法的内涵,便于学习者对其达成深刻的认识,以利应用和提升,是数据挖掘领域的学生、教师和研究开发人员的必备学习课程。
课程适用于高年级本科生或者一年级研究生研习。
数据挖掘是20世纪末刚刚兴起的数据智能分析技术,由于有广阔的应用前景而备受重视。数据挖掘作为一门新兴的学科,在它的形成和发展过程中表现出了强大的生命力,广大从事数据库应用与决策支持,以及数据分析等学科的科研工作者和工程技术人员迫切需要了解和掌握它。数据挖掘涉及的内容较为广泛,已成为迅速发展并在信息社会中广泛应用的一门综合性学科。数据挖掘已成为统计学专业的一门重要课程。通过数据挖掘课程的教学,使学生理解数据挖掘的基本概念和方法,为进入更深入的智能数据分析研究打好基础。
面对日益庞大的数据资源,人们迫切需要强有力的工具来“挖掘”其中的有用信息,数据挖掘就是针对这一需求而发展起来的一门汇集统计学、机器学习、数据库、人工智能等学科内容的新兴的交叉学科,本课程深入探讨数据挖掘原理,把信息科学、计算科学和统计学对数据挖掘的贡献融合在一起,培养计算机专业高年级本科学生具备初步的科研能力和创造能力。
0~59分,不及格;
60~69,及格;
70~79,中等;
80~89,良好;
90~100,优秀。
第一章 绪论
1.1 信息爆炸与大数据
1.2 什么是数据挖掘
1.3 数据挖掘的任务
1.4 数据挖掘的应用
1.5 数据挖掘系统结构
1.6 数据挖掘面临的挑战
1.7 数据挖掘样例数据和相关资料
本章小结
作业1
第二章 数据挖掘的过程
2.1 数据挖掘项目过程
2.2 数据挖掘过程模型
本章小结
作业2
第三章 数据准备
3.0 基本概念
3.1 数据收集
3.2 数据抽样
3.3 数据集成
3.4 数据清理
3.5 数据规约
3.6 数据变换
本章小结
实验讲解
实验1 地图平台行车轨迹绘制
实验2 数据抽样
实验3 打分评价
实验4 数据变换
第四章 数据探索
4.1 数据探索的作用
4.2 可视化
4.3 数据统计分析
本章小结
实验5 维规约数据变换(主成分分析)
实验6 建立分类模型(线性判别分析LDA)
实验7 汽车指标可视化分析
实验8 数据分布可视化
实验9 数据统计分析
实验10 相关性分析
第五章 关联分析
5.1 关联分析原理
5.2 由候选项集产生频繁项集
5.3 计算支持度计数
5.4 FP-Growth算法
5.5 产生频繁项集算法复杂度
5.6 生成规则
5.7 关联规则的评估
本章小结
实验11 购物篮数据关联分析(Apriori)
实验12 购物篮数据关联分析(FPGrowth)
第六章 分类预测
6.1 分类的原理
6.2 决策树分类
6.3 基于规则的分类器
6.4 贝叶斯分类器
6.5 人工神经网络
6.6 支持向量机
6.7 模型评估
本章小结
实验14 患者诊视处置(决策树分类)
实验17 西瓜成熟判别(贝叶斯分类)
实验19 线段方向判别(人工神经网络分类)
实验20 建立分类模型(支持向量机SVC)
实验18 手写数字识别应用(人工神经网络分类)
实验21 分类模型评估(ROC+PRC)
第七章 聚类分析
7.1 聚类的基本概念
7.2 K均值(K-means)聚类方法
7.3 K中心点算法(K-medoids)
7.4 层次聚类
7.5 DBSCAN聚类
7.6 聚类算法评估
本章小结
实验22 基于葡萄酒成分分类(KMeans聚类)
实验23 设备位置标注(KMeans聚类)
实验24 分析经济相近省市(层次聚类)
实验26 基于密度的空间聚类(DBSCAN聚类)
第八章 回归分析
8.1 回归分析的概念
8.2 回归算法
8.3 回归的评估与检验
本章小结
实验27 手机客户流失情况分析(线性回归分析)
实验28 西瓜成熟判别(Logistic回归分析)
先修课程:《线性代数》、《信息资源管理导论》《数据库原理》、《概率论与数理统计》、《高级程序设计语言》、《数据结构》
后续课程:《python与数据科学》、《大数据技术原理与应用》
[1]数据挖掘原理(Principles of Data Mining), 作者: David Hand / Heikki Mannila,译者: 张银奎 / 廖丽 / 宋俊 , 机械工业出版社, 2003年
[2]数据挖掘理论与应用 , 胡可云, 田凤占, 黄厚宽编著 , 清华大学出版社, 2008年
[3]数据挖掘原理与技术,张云涛、龚玲著,电子工业出版社,2004
[4]数据仓库与数据挖掘技术,陈京民编著,电子工业出版社,2002
[5]数据挖掘与OLAP理论与实务,林杰斌主编,清华大学出版社,2003.1
[6]数据挖掘,朱明编著,中国科学技术大学出版社,2002.2
[7]数据挖掘教程, Richard J. Roiger, Michael W. Geatz 著,翁敬农 译,清华大学出版社,2003