“大数据”这个概念几乎应用到了所有人类智力与发展的领域中。《大数据时代》这本书中有一句话:人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。本课程从大数据解析的基本概念讲起,进而介绍大数据解析中常用的基础算法,包括数据预处理相关算法、判别分析、回归分析、聚类分析、决策树、典型相关分析、神经网络、自编码器和集成学习等,同时结合具体应用,帮助同学们深入学习数据挖掘的模型与方法,掌握大数据解析的钥匙,为各行业特别是工业大数据赋能。希望大家在学习的过程中,能够了解和认识到:本课程是一门实战性很强的基础课程,纸上得来终觉浅,绝知此事要躬行;抓准具体对象本身的特点、特性和问题,以问题驱动,而非以方法为导向,不要哪个方法热,追逐哪个,切忌脱离问题空谈花哨的方法;活用数据,不要迷信数据以及被数据绑架。
本课程的特色主要包括:
(1)本课程讲授大数据分析的基本原理、相关方法和实例分析,让学生能够形成大数据思维意识,加深对课程知识的理解。
(2)课程中介绍了大量的大数据应用案例,这些案例包括但不限于工业领域,为大家提供不同学科方向的思考和启发。
(3)课程之余鼓励学生主动发现和思考生活中的大数据场景,将课程内容与实际紧密结合。
本课程需要学习者具备概率论与数理统计、机器学习、Python语言编程的基本知识和初步技能。
1.课堂讨论(20%)。学员需在由老师发起的课堂讨论中回帖并评论他人的帖子,二十次及格,三十次满分,中间按正比例函数计算,水贴不计入总数。
2. 单元测验(30%)。每章一次测验,均为客观题,系统自动评分。
3. 单元作业(30%)。本课程会安排课后作业,每次10分,共计30分,需要学员完成,采取同伴互评的方式
4. 期末考试(20%)。将根据课程内容安排期末考试,题型均为客观题,系统自动评分。
以上四项累积总分超过60分,即可获得结业证书;总分超过80分,可以获得优秀证书。
[1] 石胜飞. 大数据分析与挖掘[M]. 人民邮电出版社, 2018.(适合作为课程教材)
[2] 张良均, 谭立云, 刘名军, 江建明. Python数据分析与挖掘实战(第二版)[M]. 机械工业出版社, 2019.(适合课后实验参考)
[3] 李航. 统计学习方法[M]. 清华大学出版社, 2012. (适合统计方法理论学习)
[4] 周志华. 机器学习: Machine learning[M]. 清华大学出版社, 2016. (机器学习的西瓜书)
[5] 赵春晖,王福利. 工业过程运行状态智能监控:数据驱动方法[M]. 化工出版社, 2019.(适合了解工业背景、工业机器学习方法和应用)
Q:每周会发布多少时间的内容?我需要多少时间来学习?
A:每节课的视频时长一般控制在25分钟以内,一般在10到20分钟左右。但是除了视频内容,课后还需要花费1:1到1:2的时间进行课后学习,包括预习、讨论、作业和复习的时间,一周花费的总时长大概是一到三小时。