该课程主要涵盖大数据管理与分析的原理和技术,主要包括如下主题:大数据概述、大数据管理技术、大数据分析和挖掘的模型与算法、大数据算法设计与实现技术和大数据的应用。通过对该课程的学习,使学生从模型、算法、实现和应用等多个角度了解大数据管理与分析基本原理和新技术,从理论和系统的层面上了解大数据管理和分析性能的影响因素,从而使得学生具备使用大数据进行开发和研究的基础和背景。
设置“合格”(达到60%成绩)、"优秀"(达到80%成绩)两档课程标准,由任课教师签发课程结业证书,其中成绩“优秀”者将颁发优秀证书。
数据库系统,算法设计与分析
1.大数据概述(2学时)
大数据的基本概念和特征、大数据的应用、大数据算法的复杂性、常见的大数据处理系统。
2.并行数据管理(2学时)
并行数据库技术、并行查询处理技术。
3. 非关系大数据库管理(6学时)
Key-value pair, NoSQL, 大图数据管理的系统、大图数据管理算法
4. 大数据质量 (2学时)
大数据集成技术,实体识别和数据清洗技术。
5. 大数据分析和挖掘的模型与算法 (6学时)
相似性检索、频繁项挖掘、聚类、大图挖掘算法
6.MapReduce技术 (6学时)
MapReduce的基本概念,MapReduce算法设计技术,Hadoop上的MapReduce算法实现与优化技术
7. 大数据处理的亚线性算法 (4学时)
时间和空间的亚线性技术,抽样技术、随机化亚线性算法。
8. 大数据应用:社交网络 (2学时)
社交网络的基本概念,社交网络分析模型与算法。
9. 大数据应用:推荐系统 (2学时)
推荐系统的基本概念,基于大数据的推荐系统的模型与算法