大数据处理能力是当今IT行业看重的一种新技能。有别于传统的基于内存的数据处理方式,大数据处理要求数据分析和挖掘的流程基于磁盘文件交互的方式甚至是多机分布式交互的方式来进行。为了消除课程对硬件设备的依赖,本课程重点在于讲授基于单机磁盘文件交互的大数据分析、处理和挖掘方法,让学生在任意行业都能有效运用所学知识,在有限的计算机硬件资源上创造大数据价值。
本课程主要以案例实践的形式阐述大数据的处理流程,分三大板块:
(1)大数据应用架构和技术:了解大数据应用总体架构和相关技术。
(2)大数据采集与预处理实践:掌握从万维网中采集大数据的实际操作,掌握大数据预处理的原理和实际操作。
(3)大数据处理与应用实践:掌握大数据分析与挖掘的实际操作,熟悉大数据若干应用实践。
课程具有以下特色:
【实用性】课程以学生日常广泛接触的数据(尤其是文本数据和图片数据)为核心,阐述大数据分析处理方法的原理及应用。
【交互性】课程通过师生交互的方式来实现大数据实践应用,学生既能学习理论部分,也能亲手体验实践过程,达到学以致用的目标。
1. 让学生学会运用大数据实践平台工具对大数据进行爬取、收集和预处理,形成符合要求的数据;
2. 让学生学会应用大数据处理方法进行统计分析、数据挖掘和搭建智能应用;
3. 让学生学会使用数据挖掘技术对大数据进行分析处理,发现数据背后隐藏的知识,揭示问题的本质特征。
完成课程后布置的作业,期末考核合格,即可通过本课程学习。
本课程相对独立,建议下面课程作为本课程的先导(但非必须)课程。
(1)数据挖掘
(2)模式识别与机器学习
[1] 梁楠,《向量数据库:大模型驱动的智能检索与应用》, 清华大学出版社,2025年4月
[2] 罗云,《从零构建向量数据库》,人民邮电出版社,2024年8月
[3] 释慧利,《深入理解分布式共识算法》,清华大学出版社, 2023年3月
[4] 崔现斌,《分布式系统原理与工程实践: 一致性、共识、Paxos、分布式事务、服务治理、微服务、幂等、消息系统、ZooKeeper》,电子工业出版社,2022年1月
[5] 李海翔,《分布式数据库原理、架构与实践》,机械工业出版社,2021年10月
[6] 杜剑峰,《基于RapidMiner的商业智能实践》,科学出版社,2020年10月
[7] 张利兵,《Flink原理、实战与性能优化》,机械工业出版社,2019年4月
[8] 余辉,《Hadoop+Spark生态系统操作与实战指南》,清华大学出版社,2017年9月
Q : 课程的实践平台RapidMiner能一直使用吗?
A : RapidMiner是开源工具,没有版权限制,可以在日后的工作或进修深造过程中一直使用,终生受益。