课程概述

本课程是电子信息工程专业专业选修课,通过本课程的学习,学生可以了解数据挖掘的基本概念和方法,掌握数据预处理的基本技术,频繁模式挖掘、分类、聚类等数据挖掘基本方法,了解数据挖掘的应用及前沿发展,开阔视野,为将来参加相关工作打下一定的基础。


课程的特色是:

1、课程内容与实际应用紧密结合;

2、通过实例与案例分析,加深学生对课程知识的理解;

3、充分利用媒体展示内容,使课程内容直观形象、易于理解;

4、强调互动,让学生可以充分参与到教学过程中,收获最好的教学效果。

证书要求

平时成绩(占比50%):慕课学习(10%)、课堂派作业(20%)、课堂派测试(20%);

期末成绩(占比50%):开卷、笔试。

预备知识

本课程的先修课程为高等数学、线性代数、概率论与数理统计。最好掌握一种编程语言,如Python、C++、MATLAB等。

授课大纲

课程简介

《大数据导论》课程简介

第一章 绪论

1.1 什么是大数据

1.2 大数据的价值和作用

1.3 大数据时代的思维变革

第二章 大数据相关技术基础

2.1 大数据相关技术基础(1):云计算和Hadoop简介

2.2 大数据相关技术基础(2):大数据采集和预处理

2.3 大数据相关技术基础(3):大数据计算、分析与可视化

第三章 数据采集与预处理

3.1 大数据的来源

3.2 大数据采集

3.3 大数据预处理

3.4 大数据集成

第四章 Hadoop架构和大数据存储简介(供了解)

4.1 hadoop简介之一

4.1 hadoop简介之二

4.2 HDFS的简要介绍

4.3 基于HDFS的数据库之一

4.3 基于HDFS的数据库之二

4.3 基于HDFS的数据库之三

4.4 一种基于Hadoop的数据仓库之一

4.4 一种基于Hadoop的数据仓库之二

4.4 一种基于Hadoop的数据仓库之三

第五章 典型大数据计算框架(供了解)

5.1 一种并行编程模型--MapReduce-之一

5.1 一种并行编程模型--MapReduce-之二

5.1 一种并行编程模型--MapReduce-之三

5.1 一种并行编程模型--MapReduce-之四

5.2 Apache Spark之一

5.2 Apache Spark之二

5.2 Apache Spark之三

第六章 大数据分析

6.1 数据描述性分析

6.2 回归分析

6.3 聚类分析(补充内容见课堂派)

6.4 分类分析(补充内容见课堂派)

6.5 Weka数据挖掘软件简介

第七章 大数据可视化

7.1.1 数据可视化的概念

7.1.2 数据可视化的发展历程

7.1.3 数据可视化技术

7.2.1 数据可视化的技术分类

7.2.2 数据可视化具体方法

7.3.1 数据可视化工具简介

7.3.2 Excel数据可视化方法与应用

7.3.3 Tableau可视化基础

第八章 大数据的应用

8.1 大数据的广泛应用

8.2.1 推荐系统-1

8.2.2 推荐系统-2

8.3.1 城市大数据-1

8.3.2 城市大数据-2

补充章节 挖掘频繁模式、关联和相关性:基本概念和方法(见课堂派)

1 基本概念

2 频繁项集挖掘方法

3 模式评估方法



参考资料

建议教材:(美)韩家炜(Han,J.)等著,《数据挖掘:概念与技术》(原书第3版),机械工业出版社,2012.8


参考书:

1、张尧学主编,大数据,机械工业出版社,2018.8

2、维克托·迈尔-舍恩伯格,大数据时代,浙江人民出版社,2013.1

3、任昱衡注,《数据挖掘:你必须知道的32个经典案例》,电子工业出版社,2015.11

4、毕然编著,《大数据分析的道与术》,电子工业出版社,2016.4

常见问题

Q :  慕课堂课程码是什么?

A :  不使用慕课堂,没有课程码。本课程仅使用慕课平台的线上应用——慕课(MOOC),所有线下教学管理、作业、测试等均在课堂派完成。