spContent=大数据时代,数据库技术与数据挖掘算法是处理海量数据不可分割的两大技术。数据库技术负责存储和管理错综复杂的数据,而数据挖掘算法则承担了数据中潜在联系的探索。本课程通过介绍基于HDFS的Hive数据仓库与Spark平台下的数据挖掘算法,使同学们对这两大技术拥有一个基本的概念,旨在为同学们日后钻研相关技术时提供基础的知识储备。
大数据时代,数据库技术与数据挖掘算法是处理海量数据不可分割的两大技术。数据库技术负责存储和管理错综复杂的数据,而数据挖掘算法则承担了数据中潜在联系的探索。本课程通过介绍基于HDFS的Hive数据仓库与Spark平台下的数据挖掘算法,使同学们对这两大技术拥有一个基本的概念,旨在为同学们日后钻研相关技术时提供基础的知识储备。
—— 课程团队
课程概述
课程背景
1.数据库作为数据的高效管理技术,任何需要使用数据的场景都需要学习如何去管理数据;
2.数据挖掘作为目前非常火热的人工智能的基本技术,如何从数据中发掘有价值的信息是非常重要的;
3.有效结合数据库与数据挖掘应用于特定场景下的大数据分析任务是目前非常重要的任务。
课程目标
1.了解数据库在数据管理任务中的重要地位;
2.了解如何根据实际问题构建有效的数据挖掘任务;
3.了解如何在未来的工作中将数据库与数据挖掘有效结合还是分开使用;
4.构建机器学习的思维模式,用于解决现实生活中的实际问题。
课程设计原则
1.源于理论,重在实践;
2.实践导向,贴近问题;
3.深入浅出,即学即用。
成绩 要求
总成绩=平时成绩(50分)+章测试成绩(10分)+期末考试成绩(40分)
课程大纲
数据库概论
1.1 数据库的前世今生
1.2 数据库的四个基本概念
1.3 数据模型
1.4 关系型数据库
1.5 非关系型数据库
1.6 Hadoop与Hive
HiveQL
2.1 数据类型与文件格式
2.2 Hive中的数据库
2.3 HiveQL创建、修改、删除表
2.4 HiveQL分区表
2.5 加载和导出数据
2.6 HiveQL查询语句
2.7 HiveQL视图
数据库设计与优化
3.1 数据库模式设计
3.2 数据库调优技巧
3.3 数据压缩
3.4 安全管理
3.5 Zookeeper锁
Spark与数据挖掘
4.1 Spark概述
4.2 Spark编程模型
4.3 数据挖掘系统设计
4.4 Spark MLlib
数据挖掘算法
5.1 数据预处理
5.2 分类模型
5.3 聚类模型
5.4 回归模型
5.5 推荐模型
5.6 文本处理
展开全部