R语言,是统计学以及数据分析工具的第一选择;
R语言,可以完成几乎任何类型的数据分析工作;
R语言,拥有丰富的可视化模块与顶尖的制图功能;
R语言,可以在多平台上、轻松的导入并处理多源数据模式;
R语言是大数据分析工具的第一选择。
这门课的主题是如何熟练、灵活的使用R语言编程进行大数据分析。在这门课中,我们将学习到R语言的基础语法、使用R语言处理数据、进行绘图、创建并使用R语言函数、使用R语言进行统计分析与简单的回归分析等。
这门课程强调理论与实践的融合,充分调动同学们的动手实践能力。我们在每一章节中设置了大量的代码实践内容,并在课程最后设置了综合实践章节,用来介绍R语言的具体应用。
通过这门课程的学习,要求同学们掌握R语言的基础语法、具备使用R语言编程解决一般计算问题的能力、理解数据分析的基本流程、了解使用R语言进行大数据分析的实战技巧。
本课程获得证书的资格,由以下因素决定:
1.期中考试:得分占总评分数的30%;
2.期末考试:得分占总评分数的70%;
*注:若无期中成绩,则期末考试成绩占总评分数的100%;
满足条件1并且总评成绩达到60分及以上者,合格;总评达到90分及以上,优秀。
为了对学习者的在线学习过程更加负责,保证平台证书的严谨性和权威性,从2019年9月份开始,中国大学MOOC将不再发放免费证书;认证证书(同时有纸质版和电子版)需申请并付费:100元/人。
如果学习过一门编程语言,例如Python语言或者Java语言,会对这门课程的学习带来很大的帮助,将有助于理解编程语言的形成以及编程方法。
如果还对数据挖掘、数据库有较为系统的理解,将会更为扎实的掌握这门课程。
以上预备知识并不是必须的。
第1讲:R语言介绍
1.1 R语言介绍。什么是R语言?如何下载安装R语言环境?以及简单的R语言编程实例。
第2讲:创建数据集 - 数据集的概念
2.1 数据集的概念。数据集的构成,如何在R语言环境中创建、使用数据集。
第3讲: 数据结构中的向量与矩阵
2.2 向量与矩阵的定义,以及如何在R语言环境中使用这两种数据结构。
第4讲:数据结构中的数组和数据框、因子与列表,数据的输入与数据集的标注
2.4 数据的输入和数据集标注。数据输入包括从键盘输入、从多源数据导入等,数据集标注包括添加变量标签、值标签等。
2.3.1 数组和数据框。数组是可以在两个以上的维度存储数据的R数据对象;数据框是可以将不同的数据类型组合在一起的数据结构。
2.3.2 其他数据结构,因子和列表。因子是R中用于对数据进行分类,并将其存储为级别的数据对象;列表是可以包含多个不同数据元素的数据对象。
第5讲:图形初阶
3.1 创建和保存图形,图形参数。了解R中作图的函数,及其使用方法。
3.2 图形的修改及组合。添加文本、自定义坐标轴、添加刻度线、图例和标注等;并学习如何使用par函数和layout函数进行图形的组合。
第6讲:数据的管理
4.3 数据的排序、合并。介绍基本的排序方法以及数据的合并方法,子集以及使用SQL语句操作数据框等。
4.2 变量、缺失值和日期值。对数据的类型进行讨论,在数据处理之前要先对数据进行清洗、整理。得到规范的数据以方便后续的分析工作。
4.1 基础数据管理。介绍数据是什么?如何对数据进行管理。
第7讲:高级数据管理 -- 数学函数、统计函数和字符处理函数
5.2 字符处理函数
5.1 数学函数与统计函数
第8讲:一个数据处理实例
5.3 一个数据处理实例。将学生的各科期末考试成绩组合为单一的成绩衡量指标,并基于相对名次(前20%,后20%等)给出A到F的评分,按照学生的姓氏和名字的首字母排序后输出。
5.4 控制流语句
5.5 自定义函数
第9讲:数据的可视化 -- 条形图和饼状图
6.1 条形图和饼状图
第10讲:数据的可视化 -- 基本图形中的直方图、核密度图、箱型图和点图
6.2 直方图、核密度图、箱型图和点图
第11讲:统计分析
7.2 相关性
7.1 基本统计分析
第12讲:回归分析
8.1 简单线性回归、多项式回归以及多元线性回归的理解与实战
第13讲:实战案例分析
9.2 实战案例分析(二)
9.1 实战案例分析(一)
《R语言实战》,[美] 卡巴科弗(Robert I. Kabacoff) 著,王小宁,刘撷芯,黄俊文 等 译 ,人民邮电出版社,ISBN:9787115420572
《R语言与数据挖掘》,张良均、谢佳标、杨坦、肖刚等著,机械工业出版社,ISBN:9787111540526
《R语言之书,编程与统计》,蒂尔曼·M.,戴维斯(Tilman,M.,Davies) 著,李毅 译 ,人民邮电出版社,ISBN:9787115501899