随着计算方法和信息技术的不断发展,大量数据的产生和收集导致信息爆炸,而信息可以产生价值,因而需要我们对这些数据进行实时和深层次的分析。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。本课程将介绍这三方面技术背景,并通过一系列实验综合运用这些技术。学生只需要有基本的数据库知识,不需要掌握编程语言,通过课程学习引导学生对数据挖掘产生兴趣,并且逐渐培养学生的数据意识,对较为成熟的技术和方法具有相应的分析应用能力。并为以后深入学习打下基础。
本课程内容共9周,分为两部分:概念和实践。概念3周,实践6周。具体内容如下:
第一部分,共3周:讲解课程涉及的基本概念,包括:导论、数据挖掘定义、数据挖掘分类、判断挖掘问题类型、基本数据挖掘技术、数据仓库原理。
第二部分,共6周 :其中4周讲解经典数据挖掘算法应用案例。算法包括:决策树、贝叶斯、聚类、关联规则、神经网络、逻辑回归、时间序列、序列聚类。另外2周讲解OLAP应用,涉及多维数据集的创建和维护方法,最后使用它进行多维数据分析。
本课程实验环境使用SQLServer Analysis Services。
单元测验(5%);单元作业(35%);课堂讨论(10%);期末考试(50%)
总分60及以上为合格。
掌握数据库的基本概念,掌握数据库中表的基本操作。
《数据挖掘教程》 翁敬农 等译 清华大学出版社
《数据挖掘概念与技术》 Jiawei Han 机械工业出版社
《SQL Server数据挖掘与商业智能基础及案例实战》 谢邦昌 中国水利水电出版
《数据仓库与数据挖掘应用教程》 李春葆等 清华大学出版社