SPOC学校专有课程
Hadoop大数据技术
第1次开课
开课时间: 2022年01月06日 ~ 2022年05月31日
学时安排: 4小时每周
当前开课已结束 已有 61 人参加
老师已关闭该学期,无法查看
spContent=
—— 课程团队
课程概述

Hadoop大数据技术与应用》是数据科学与大数据技术方向本科生的一门必修课。通过该课程的学习,使学生系统的学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。课程由理论及实践两部分组成,课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主,让学生对Hadoop平台组件的作用及其工作原理有比较深入的了解;课程同时为各组件设计有若干实验,帮助学生在学习理论知识的同时,提高学生的实践能力,系统的掌握Hadoop主要组件的原理及应用,为其他相关课程的学习提供必要的帮助。

1.1 积极培育和践行社会主义核心价值观,运用马克思主义哲学的方法论,引导学生正确做人和做事,从Hadoop大数据技术这门课程挖掘出丰富的精神养料,培养学生诚信、严谨、一丝不苟的学习态度,包容、友善、合作的团队协作精神。

1.2 理解并掌握Hadoop平台框架,学会手动搭建Hadoop环境,并能运用Hadoop平台解决相关问题。

1.3理解掌握基础的MapReduce编程并能运用MapReduce方法解决相关问题。

1.4掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程。

1.5通过实验课达到具备一定的动手及问题分析能力,使用掌握的知识应用到实际的项目实践中。

1.6课程中实验由浅及深,有一定的步骤及难度,操作不当可能会遇到问题;遇到问题时老师会给出引导,但不会直接告诉解决方法,因此,如何分析、分析完成后实施具体的解决步骤,都需要学生摸索完成,在这个摸索实践过程中,学生的分析及解决问题的能力得到培养。

1.7通过本课程的学习,引导学生养成工程师逻辑思维、系统思维的思维方式及习惯。

本课程知识点多、理论性强。

成绩 要求

课程总评成绩=平时成绩×50%+期末考查成绩×50%;其中平时成绩=考勤成绩×20%+平时作业成绩×20%+课堂表现×10%。本课程平时作业成绩记录采用等级制。期末考查成绩采用等级制,根据课程总评成绩按照优秀、良好、中等、及格、不及格五个等级评定本课程考核最终成绩。

课程大纲
第一章 初识Hadoop大数据技术
1.1 大数据技术概述
1.1.1 大数据产生的背景
1.1.2 大数据的定义
1.1.3 大数据技术发展
1.2 Google的“三驾马车
1.2.1 Google思想一:GFS 分布式文件系统
1.2.2 Google思想二:MapReduce
1.2.3 Google思想三:BigTable
1.3 Hadoop概述
1.3.1 Hadoop对Google三篇论文实现
1.3.2 Hadoop发展简史
1.3.3 Hadoop版本演变
1.3.4 Hadoop发行版本
1.3.5 Hadoop特点
1.4 Hadoop生态圈
1.5 Hadoop典型应用场景与应用架构
1.5.1 Hadoop十大应用场景
1.5.2 Hadoop典型应用架构
1.6 小结
第二章 Hadoop环境设置
2.1 三种安装模式
2.2 Hadoop的安装
2.2.1 单机模式
2.2.2 伪分布模式
2.2.3 完全分布式模式
2.3 本章小结
第三章 HDFS
3.1 HDFS简介
3.1.1 HDFS概念
3.1.2 HDFS优点
3.1.3 HDFS缺点
3.2 HDFS组成与架构
3.2.1 HDFS基本组成
3.2.2 NameNode
3.2.3 DataNode
3.2.4 SecondaryNameNode
3.3 HDFS工作原理
3.3.1 机架 Rack
3.3.1 机架感知(rack-aware)
3.3.2 数据读取过程
3.3.3 数据写入过程
3.3.4 HDFS容错
3.4 HDFS操作
3.4.1 通过Web Console
3.4.2 通过Shell命令
3.4.3 通过JAVA API
3.5 HDFS高级功能/特性
3.5.1 安全模式
3.5.2 回收站
3.5.3 快照
3.5.4 配额
3.5. 5 HA(High Availability高可用)
3.5.6 联邦Federation
3.6 小结
第四章 YARN
4.1 YARN产生的背景
4.1.1 Hadoop主要组成
4.1.2 MapReduce 1 架构
4.1.3 MapReduce 1 工作流程
4.1.4 MapReduce 1 局限性
4.1.5 MapReduce 2
4.2初识YARN
4.2.1 YARN - 进程
4.2.2 YARN - Web界面
4.2.3 什么是YARN
4.2.4 YARN在Hadoop生态圈中位置
4.3 YARN架构
4.3.1 YARN架构
4.3.2 YARN中应用(Application)运行机制(流程)
4.3.3 YARN中任务进度监控
4.3.4 MapReduce 1 与 YARN组成对比
4.3.5 YARN对MapReduce运行性能提升
4.4 YARN调度器
4.4.1 YARN调度器
4.4.2 三种调度器比较
4.5 小结
第五章 MapReduce
5.1 MapReduce概述
5.1.1. MapReduce简介
5.1.2. MapReduce设计思想
5.1.3. MapReduce特点
5.2 数组的顺序存储和实现
5.2.1. MapReduce编程模型
5.2.2. MapReduce编程实例
5.3 MapReduce编程进阶
5.3.1. MapReduce数据输入、输出
5.3.2. MapReduce分区
5.3.3. MapReduce合并
5.4 MapReduce工作机制
5.4.1. MapReduce作业运行机制
5.4.2. MapReduce Shuffle
5.4.3. MapReduce排序
5.5 MapReduce编程案例 通过案例,熟悉MapReduce常用编程案例
5.5.1. 案例1-排序
5.5.2. 案例2-去重
5.5.3. 案例3-多表查询
第六章 HBase、Hive、Pig
6.1 树的概念与定义 HBase
6.1.1. HBase基本概念
6.1.2. HBase数据模型
6.1.3. HBase物理模型
6.1.4. HBase系统架构
6.1.5. HBase与传统数据库的差异
6.2 Hive
6.2.1. Hive数据类型与存储格式
6.2.2. Hive数据模型
6.2.3. Hive查询数据
6.2.4. 用户定义函数
6.3 Pig
6.3.1. Pig简介
6.3.2. Pig数据模型
6.3.3. Pig Latin编程语言
6.3.4. Pig代码实例
6.3.5. 用户自定义函数
第七章 Flume
7.1 Flume产生的背景
7.2 Flume简介
7.2.1. Flume基本概念
7.2.2. Flume的诞生
7.3 Flume安装
7.3.1. 前期准备
7.3.2. 安装过程
7.4 Flume架构
7.4.1. Flume结构
7.4.2. Flume工作方式
7.5 Flume配置
7.5.1. 准备工作
7.5.2. 配置过程
第八章 Sqoop
8.1 Sqoop背景简介
8.1.1. Sqoop产生的背景
8.1.2. Sqoop的作用
8.2 Sqoop基本原理
8.3 Sqoop安装部署
8.4 Sqoop使用
8.4.1. MySql基本信息
8.4.2. MySql与HDFS的数据互导
8.4.3. MySql与Hive的数据互导
第九章 ZooKeeper
9.1 ZooKeeper简介
9.1.1. ZooKeeper作用
9.1.2. ZooKeeper产生背景
9.2 ZooKeeper的安装和运行
9.2.1. ZooKeeper安装准备
9.2.2. ZooKeeper安装与运行
9.3 ZooKeeper的简单操作
9.4 ZooKeeper的特性
9.5 ZooKeeper应用场景
第十章 Ambari
10.1 Ambari简介
10.1.1. Ambari作用
10.1.2. Ambari产生背景
10.2 Ambari的安装
10.2.1. Ambari安装准备
10.2.2. Ambari安装与运行
10.3 利用Ambari管理Hadoop集群
10.3.1. HDP集群的安装配置
10.3.2. 节点的扩展
10.3.3. HA启用
10.4 Ambari的架构和工作原理
10.4.1. Ambari总体架构
10.4.2. Ambari Agent
10.4.3. Ambari Server
展开全部
盐城师范学院
3 位授课老师
周彩根

周彩根

教授

袁晓峰

袁晓峰

副教授

花明

花明

讲师

下载
下载

下载App