随着计算方法和信息技术的不断发展,大量数据的产生和收集导致信息爆炸,而信息可以产生价值,因而需要我们对这些数据进行实时和深层次的分析。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。本课程将介绍这三方面技术背景,并通过一系列实验综合运用这些技术。学生只需要有基本的数据库知识,不需要掌握编程语言,通过课程学习引导学生对数据挖掘产生兴趣,并且逐渐培养学生的数据意识,对较为成熟的技术和方法具有相应的分析应用能力。并为以后深入学习打下基础。
本课程内容共9周,分为两部分:概念和实践。概念3周,实践6周。具体内容如下:
第一部分,共3周:讲解课程涉及的基本概念,包括:导论、数据挖掘定义、数据挖掘分类、判断挖掘问题类型、基本数据挖掘技术、数据仓库原理。
第二部分,共6周 :其中4周讲解经典数据挖掘算法应用案例。算法包括:决策树、贝叶斯、聚类、关联规则、神经网络、逻辑回归、时间序列、序列聚类。另外2周讲解OLAP应用,涉及多维数据集的创建和维护方法,最后使用它进行多维数据分析。
本课程实验环境使用SQLServer Analysis Services。
单元测验(5%);单元作业(35%);课堂讨论(10%);期末考试(50%)
总分60及以上为合格。
第1周
第1章 数据挖掘简介
1-1 数据挖掘是怎样工作的
1-2 数据挖掘还是数据查询
1-3 数据挖掘的功能
第2周
第2章 数据挖掘的主要方法
2-1 决策树
2-2 关联规则
2-3 K-平均值算法
2-4 遗传学习
2-5 神经网络
第3周
第4章 数据仓库
4-1 数据仓库的定义
4-2 数据仓库的结构
4-3 数据仓库系统的设计
第4周
数据挖掘实战(1)
DM-1 基于SQLServer的数据分析环境(12'57)
DM-2决策树算法应用场景(14'29)
DM-3 决策树算法应用示例(13'15)
第5周
数据挖掘实战(2)
DM-4聚类算法应用场景与示例(12'18)
DM-5关联规则算法应用场景(10'27)
DM-6关联规则算法应用示例(5'49)
第6周
数据挖掘实战(3)
DM-7 贝叶斯算法应用场景与示例(13'10)
DM-8 神经网络算法应用场景与示例(12'30)
DM-9 逻辑回归算法应用场景与示例(9'27)
第7周
数据挖掘实战(4)
DM-10 时序算法应用场景(10'23)
DM-11 时序算法应用示例(9'41)
DM-12 顺序分析和聚类分析算法应用场景(9'11)
DM-13 顺序分析和聚类分析算法应用示例(9'12)
第8周
OLAP实战(1)
OLAP-1多维数据分析简介
OLAP-2数据源视图和多维数据集的创建
OLAP-3 多维数据集的部署和浏览
OLAP-4修改度量值、属性和层次结构
第9周
OLAP实战(2)
OLAP-5定义高级属性和维度属性
OLAP-6定义计算、维度和度量值组之间的关系
OLAP-7定义钻取操作、透视、翻译
掌握数据库的基本概念,掌握数据库中表的基本操作。
《数据挖掘教程》 翁敬农 等译 清华大学出版社
《数据挖掘概念与技术》 Jiawei Han 机械工业出版社
《SQL Server数据挖掘与商业智能基础及案例实战》 谢邦昌 中国水利水电出版
《数据仓库与数据挖掘应用教程》 李春葆等 清华大学出版社