SPOC学校专有课程
Spark大数据处理
分享
spContent=本课程属于进阶级大数据课程,由全国高校知名大数据教师厦门大学林子雨老师主讲,采用林子雨等编著的《Spark编程基础(Scala版)》作为课程教材。课程内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming和Spark MLlib等。
—— 课程团队
课程概述

本课程是为大数据技术类相关专业学生开设的课程。大数据技术蓬勃发展,基于开源技术的Hadoop在行业中应用广泛。但是Hadoop本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求。Spark的诞生弥补了MapReduce的缺陷。Spark继承了MapReduce分布式计算的优点并改进了MapReduce明显的缺陷。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduceSpark的中间输出结果可以保存在内存中,从而大大减少了读写HDFS的次数,因此Spark能更好地适用于数据挖掘与机器学习中需要迭代的算法。目前,Spark在企业中的运用越来越广泛,学习Spark分布式计算框架已然是进入大数据行业所必不可少的一步。

通过本课程的学习,使学生对Spark分布式计算框架有一个全面的理解,课程内容主要包括了Spark基本原理与架构、集群安装配置、ScalaSpark编程、Spark代表组件,完整项目案例等精选内容。涉及的知识点简要精到,实践操作性强

         本课程的具体章节如下:

(1)第1章-大数据技术概述(2019年9月16日发布)

(2)第2章-Scala语言基础(2019年9月23日发布,本章内容较多,学习时长是3周)

(3)第3章-Spark的设计与运行原理(2019年10月14日发布)

(4)第4章-Spark环境搭建和使用方法(2019年10月21日发布)

(5)第5章-RDD编程(2019年10月28日发布,本章学习内容较多,学习时长是2周)

(6)第6章-Spark SQL(2019年11月11日发布)

(7)第7章-Spark Streaming(2019年11月18日发布,本章学习内容较多,学习时长是2周)

(8)第8章-Spark MLlib(2019年12月2日发布)

授课目标

Spark是当前热门的大数据处理技术,本课程重点介绍Spark的技术原理与编程方法。本课程采用Scala语言编写Spark应用程序。课程内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQLSpark StreamingSpark MLlib等。通过本课程的学习,将帮助学生形成基础的Spark应用程序编程能力,为学生使用Spark技术解决实际科研问题和未来从事大数据相关工作奠定基础。

成绩要求

课程总成绩是由过程考核(50%和终结性(50%)组成。总成绩小于60分为“不合格”。

课程大纲
预备知识


需要具备的预备知识包括:面向对象编程(比如Java)、数据库、操作系统、大数据技术基础。


参考资料

宁夏理工学院教师自选的教材是《Spark大数据技术与应用》。

这些是与本课程相关的教材:林子雨,赖永炫,陶继平.Spark编程基础(Scala版),人民邮电出版社,2018年8月(教材官网)。

林子雨.大数据技术原理与应用(第2版),人民邮电出版社,2017年2月(教材官网)。

林子雨-大数据基础编程、实验和案例教程,清华大学出版社,2017年8月(教材官网)。