大数据技术原理与应用
分享
课程详情
课程评价
spContent=入门级大数据精品课程,适合初学者,完备的课程在线服务体系,可以帮助初学者实现“零基础”学习大数据。课程指导思想是“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”。课程由国内高校知名大数据教师厦门大学林子雨老师主讲。配套的《大数据技术原理与应用》教材已经被众多高校采用。
—— 课程团队
课程概述

入门级大数据课程,适合初学者,完备的课程在线服务体系,可以帮助初学者实现“零基础”学习大数据课程。课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。课程由国内高校知名大数据教师厦门大学林子雨助理教授主讲。

课程内容(固定在每周一上午10点发布一章内容):
第一讲:大数据概述(2018年9月3日发布)
第二讲:大数据处理架构Hadoop(2018年9月10日发布)
第三讲:分布式文件系统HDFS(2018年9月17日发布)
第四讲:分布式数据库HBase(2018年9月24日发布)
第五讲:NoSQL数据库(2018年10月1日发布)
第六讲:云数据库(2018年10月8日发布)
第七讲:MapReduce(2018年10月15日发布)
第八讲:数据仓库Hive(2018年10月22日发布)
第九讲:Hadoop架构再探讨(2018年10月29日发布)
第十讲:Spark(2018年11月5日发布)
第十一讲:流计算(2018年11月12日发布)
第十二讲:图计算(2018年11月19日发布)
第十三讲:大数据在不同领域的应用(2018年11月26日发布)

期末考试:2018年12月3日上午10点到12月16日晚上11点

授课目标

课程的定位是入门级课程,本课程的目标是为学生搭建起通向“大数据知识空间”的桥梁和纽带。本课程将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助学生形成对大数据知识体系及其应用领域的轮廓性认识,为学生在大数据领域“深耕细作”奠定基础、指明方向。

课程大纲

第0讲  课程介绍

课程及其配套在线资源介绍

本讲配套讲义PPT-第0讲 课程介绍

第1讲 大数据概述

第1讲大数据概述章节单元测验

1.1 大数据时代

1.2 大数据概念和影响

1.3 大数据的应用

1.4 大数据的关键技术

1.5 大数据与云计算、物联网

本讲配套讲义PPT-第1讲-大数据概述

第2讲 大数据处理架构Hadoop

大数据处理架构Hadoop单元测验

2.1 概述

2.2 Hadoop项目结构

2.3 Hadoop的安装与使用

2.4  Hadoop集群的部署和使用

本讲配套讲义PPT-第2讲-大数据处理架构Hadoop

本讲实验答疑-第2讲-大数据处理架构Hadoop

第3讲 分布式文件系统HDFS

分布式文件系统HDFS单元测验

3.1 分布式文件系统HDFS简介

3.2 HDFS相关概念

3.3 HDFS体系结构

3.4 HDFS存储原理

3.5 HDFS数据读写过程

3.6 HDFS编程实践

本讲配套讲义PPT-第3讲-分布式文件系统HDFS

分布式文件系统HDFS单元作业

第4讲  分布式数据库HBase

4.1 HBase简介

4.2 HBase数据模型

4.3 HBase的实现原理

4.4 HBase运行机制

4.5 HBase应用方案

4.6 HBase安装配置和常用Shell命令

4.7  HBase常用Java API及应用实例

本讲配套讲义PPT-第4讲-分布式数据库HBase

分布式数据库HBase单元测验

分布式数据库HBase单元作业

第5讲  NoSQL数据库

NoSQL数据库单元测验

5.1 NoSQL概述

5.2 NoSQL与关系数据库的比较

5.3 NoSQL的四大类型

5.4 NoSQL的三大基石

5.5 从NoSQL到NewSQL数据库

5.6 文档数据库MongoDB

本讲配套讲义PPT-第5讲-NoSQL数据库

第6讲  云数据库

云数据库单元测验

6.1 云数据库概述

6.2 云数据库产品

6.3 云数据库系统架构

6.4 Amazon AWS和云数据库

6.5 微软云数据库SQL Azure

6.6 云数据库实践

本讲配套讲义PPT-第6讲-云数据库

第7讲   MapReduce

MapReduce单元测验

7.1 MapReduce概述

7.2 MapReduce的体系结构

7.3 MapReduce工作流程

7.4 Shuffle过程原理

7.5 MapReduce应用程序执行过程

7.6 实例分析:WordCount

7.7 MapReduce的具体应用

7.8 MapReduce编程实践

本讲配套讲义PPT-第7讲-MapReduce

第8讲  数据仓库Hive

数据仓库Hive单元测验

8.1 数据仓库概念

8.2 Hive简介

8.3 SQL转换成MapReduce作业的原理

8.4 Impala

8.5 Hive编程实践

本讲配套讲义PPT-第8讲-数据仓库Hive

第9讲  Hadoop再探讨

Hadoop再探讨单元测验

9.1 Hadoop的优化与发展

9.2 HDFS2.0的新特性

9.3 新一代资源管理调度框架YARN

9.4 Hadoop生态系统中具有代表性的功能组件

本讲配套讲义PPT-第9讲-Hadoop再探讨

第10讲  Spark

Spark单元测验

10.1 Spark概述

10.2 Spark生态系统

10.3 Spark运行架构

10.4 Spark SQL

10.5 Spark的部署和应用方式

10.6 Spark编程实践

本讲配套讲义PPT-第10讲-Spark

第11讲  流计算

流计算单元测验

11.1 流计算概述

11.2 流计算处理流程

11.3 流计算的应用

11.4 开源流计算框架Storm

11.5 Spark Streaming、Samza以及三种流计算框架的比较

11.6 Storm编程实践

本讲配套讲义PPT-第11讲-流计算

第12讲  图计算

图计算单元测验

12.1 图计算简介

12.2 Pregel简介

12.3 Pregel图计算模型

12.4 Pregel的C++ API

12.5 Pregel的体系结构

12.6 Pregel的应用实例——单源最短路径

12.7 Hama的安装和使用

本讲配套讲义PPT-第12讲-图计算

第13讲  大数据在不同领域的应用

大数据在不同领域的应用单元测验

13.1 大数据应用概览

13.2 推荐系统

13.3 大数据在智能医疗和智能物流领域运用

本讲配套讲义PPT-第13讲-大数据在不同领域的应用

预备知识

面向对象编程(比如Java)、数据库、操作系统

证书要求

课程总成绩是由单元测验(40%)、单元作业(10%)和考试(50%)组成。成绩包含“不合格”、“合格”和“优秀”三个档次。总成绩小于60分为“不合格”,大于等于60分并且小于85分为“合格”,大于等于85分为“优秀”。

参考资料

林子雨.大数据技术原理与应用(第2版),人民邮电出版社,2017年2月(教材官网)。

林子雨-大数据基础编程、实验和案例教程,清华大学出版社,2017年8月。(教材官网

高校大数据课程公共服务平台:http://dblab.xmu.edu.cn/post/8197/

大数据学习路线图:http://dblab.xmu.edu.cn/post/10164/