中国人民大学

图片
课程概述

  数据库是一门关于数据存储、管理、处理和分析挖掘的学科。

  随着计算机软硬件技术的进步,特别是大数据的出现,数据库技术获得快速发展,新技术和新系统层出不穷。

     新技术篇将从数据管理和数据分析的角度来讨论数据库新技术与大数据技术。系统地讲解传统数据库技术的最新发展,大数据管理与系统的新概念、新技术和新应用。

  我们力求深入浅出,使得本篇不仅可以作为高等学校计算机类专业高年级本科生和研究生数据库课程的教学内容,而且能为广大学员和科技人员提供有益参考。

本课程的特点:

1.      课程内容:系统地讲解传统数据库技术的最新发展,以及大数据管理与系统的最新前沿技术。

2.       授课面向:高年级学生、研究生、教师和广大科技人员。

3.       讲课老师:中国人民大学中青年优秀教师(16位)

4.       深入浅出:大同行能够听懂。


 

数据库系统概论(新技术篇)分为两大部分。

第一部分是数据库的新技术概论。包括:

l  数据库新技术概述

讲者:

王珊教授;


l  内存数据库

讲者:

张延松博士,副教授;


l  数据库一体机

讲者:

周烜博士,教授;


l  数据仓库和OLAP分析

讲者:

陈红博士,教授;


l  数据挖掘

讲者:

李翠平博士,教授;


l  数据库安全性新技术

讲者:

秦波博士;


l  开源数据库系统

讲者:

张孝博士,副教授;


第二部分是大数据技术概论。包括:

l  大数据概述:

主要介绍大数据本概念、大数据技术架构和大数据应用。

讲者:

杜小勇博士,教授


文继荣博士,教授;


l  大数据平台:

主要介绍键值对系统、流数据处理系统、NoSQL数据库、文档数据库、图数据库等。

讲者:

覃雄派博士;


陈跃国博士,副教授;


窦志成博士,副教授;


卢卫博士,副教授;


l  大数据算法与分析:

主要介绍大数据近似算法、大数据与机器学习、社交网络大数据分析、文本互联网大数据分析、多媒体大数据分析等。

讲者:

魏哲巍博士,副教授;


卢志武博士,副教授;


赵鑫博士;


窦志成博士,副教授;


刘家俊博士,副教授;

证书要求

1.       课后单元测验,得分占总成绩的40%单元测验的具体时间和要求在公告中通知。

2.       参加不少于10的课堂交流讨论,得分占总成绩的20%

3.       期末考试,得分占总成绩的40%

说明:

总评成绩达到80分及以上者,可以获得本课程的优秀证书;

总评成绩达到60分但未达到80分者,可以获得本课程的合格证书。





预备知识

*数据库系统概论(基础篇)

*数据库系统概论(高级篇)

授课大纲

讲授内容包括两大部分(调整后的授课顺序将于近期发布)

 

第一部分 传统数据库技术的创新与发展。主要介绍数据库管理技术和数据库管理系统的最新研究和应用成果。

 

第二部分 大数据管理技术与系统的研究与开发。主要介绍大数据概念、大数据平台和大数据算法。

 

-----第一部分  传统数据库技术的创新与发展------

 

v  第1讲 数据库新技术概述

回顾数据库技50年的成就和宝贵启示、面临的挑战;

概要介绍《新技术篇》的主要内容。

v  第2讲 内存数据库

介绍内存数据库的基本概念、应用领域、应用架构和代表性产品;

讲解新型存储技术、新型处理器技术对内存数据库发展的推动作用;

分析基于MonetDB和Vectorwise的列处理模型和向量处理模型的查询处理技术;

内存数据库技术的发展历程和发展趋势。

v  第3讲 数据库一体机

介绍数据库一体机的概念、产品形态和技术方向;

通过例子对软硬件结合的数据库一体机技术进行深入浅出的介绍。

v  第4讲 数据仓库与OLAP关键技术

讲解数据仓库的基本概念;

数据仓库与OLAP关键技术,包括多维数据模型、CUBE计算、实体化视图、精简数

                         据方体、索引;

v  第5讲 新一代OLAP分析

讲解内存OLAP与多核OLAP;

基于协处理器的OLAP与实时数据仓库。

v  第6讲 数据挖掘

介绍数据挖掘的基本概念;

讲解经典数据挖掘技术,包括分类、聚类、频繁模式挖掘。

v  第7讲 数据库安全性新技术

介绍数据库安全事件,数据库安全的需求与策略,当前数据库安全面临的挑战;

讲解细粒度访问控制技术,加密数据库查询技术;

隐私保护数据发布技术、隐私保护统计数据发布技术。

v  第8讲 开源数据库系统

介绍开源数据库系统的特色及几种开源数据库;

以PostgreSQL为例介绍学习、使用与定制开源数据库方法;

围绕PostgreSQL,分析主要实现技术,包括体系架构、存储、缓冲区、查询分析器、多版本并发控制。

 

-----第二部分  大数据管理技术与系统的研究与开发------

 

v  第9讲  理解大数据

介绍大数据的数据特征、系统特征、应用特征。

 

v  第10讲大数据思维和方法

介绍大数据的思维方式、解决问题的基本方法和实例、以及大数据管理的生命周期。

v  第11讲大数据处理平台Hadoop&Spark及其生态系统

    介绍Hadoop1.0生态系统及其应用场景;

    Hadoop2.0支持的计算模型、主要优势;

    介绍Spark及其生态系统,介绍Hadoop/Spark在未来数据仓库系统中的角色。

v  第12讲 SQL on Hadoop Systems

介绍SQL的优势与SQL on Hadoop系统的分类;

Hive on MapReduce到Hive on Tez;

介绍HDFS上的列存储系统,以及典型的SQL on Hadoop系统。

v  第13讲 KEY-VALUE数据库

    介绍键值对(KEY-VALUE)数据库系统的概念、应用场景、基本原理和典型实现案

    例。

v  第14讲 流数据分析与处理

介绍流数据的基本概念、流数据分析与处理的典型系统,比较流数据管理系统与传统数据库系统、比较流分析系统与批处理系统。

v  第15讲 MongoDB文档数据库

    介绍MongoDB数据库及其功能,以及MongoDB基本数据操作。

v  第16讲 图数据库

当前图数据管理与应用面临的挑战、大数据时代面向图数据管理技术发展概述;

讲解面向事务处理的图数据库管理功能、存储模型、选型和性能评价;

介绍面向分析型的分布式图处理系统及其实现原理、选型和性能评价。

v  第17讲 大数据近似算法

大数据近似算法:概论与采样;

基于计数的近似算法:多数问题与MG摘要;

基于哈希的近似算法:布隆过滤器与略图。

v  第18讲 大数据与机器学习

机器学习的基本概念、发展历程、前沿方向;

大数据机器学习的基本概念、实现平台;大数据机器学习的总结与反思。

v  第19讲 社交网络大数据分析

社交媒体数据以及常用数据处理技术;

讲解典型任务与解决方法,包括数据质量清洗、用户舆情分析、用户画像构建、用户兴趣学习。

v  第20讲文本大数据分析及应用案例

介绍文本大数据分析的应用场景、文本分析(自然语言处理)技术;

基于solr的文本检索与分析系统实例。

v  第21讲 多媒体大数据分析

介绍多媒体大数据的发展现状、技术挑战;

多媒体大数据的实际应用和当前的研究方向。

v  第22讲 数据可视化与可视分析

介绍数据可视化的过程、原则、实例和可视化工具简介。


参考资料

1.       王珊,萨师煊.《数据库系统概论(第5版)》,高等教育出版社,2014.9

2.       王珊,李翠平,李盛恩.《数据仓库和数据分析教程》,高等教育出版社,2012.8

3.       张延松,王珊.《内存数据库技术与实现》,高等教育出版社,2016.5

4.       课程每一讲的研究方向中,讲者以及其他专家发表的论文。