山东大学

生物信息学

图片
课程概述

生物信息学是一门发展潜力巨大的交叉学科。它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合,通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。生物信息学不仅是一门科学学科,更是一种重要的研究开发平台与工具。本课程的主要内容包括生物信息学的概述、生物数据库的查询及搜索、核酸/蛋白质序列的比较分析、分子进化及系统发生、蛋白质结构的预测及分析、基因组学与蛋白质组学、序列算法、统计基础、数据挖掘、编程基础与网页制作。课程打破传统概念型教学方式以实际操作来讲解各种工具软件的使用,通过大量实例的讲解,使理论和实践紧密结合。本课程适用于生命科学、农学、医学、信息科学等相关专业本科生、硕士生、博士生各阶段的同学,以及生物医学领域的科研工作者。

授课目标
让学生了解生物信息学产生的历史、现状及发展态势,着重介绍生物信息学基础知识、生物信息学工具的使用、相关算法的开发以及生物信息学在人类重大疾病研究中的重要应用等内容,并掌握通过生物生物信息学方法解决各种生命科学领域问题的能力,以及拥有跨学科综合思考的能力。
证书要求

最终成绩由单元测验(30%)、单元作业(50%)和期末考试(20%)组成,满分100分,60-85分获得合格证书,85分以上获得优秀证书。电子版的课程结业证书免费。纸质版认证证书收费:100元/人。

预备知识

生物学、生物化学、分子生物学、计算机基础

授课大纲

第一章:绪论(2课时) 

     1.1 课程介绍

     1.2 探索生物信息学神秘岛

     1.3 生物信息学是神马

     1.4 这门课学神马 


第二章:生物数据库 第一部分(2课时)

     2.1 为什么需要生物数据库

     2.2 生物数据库分类

     2.3 文献数据库:PubMed

2.3.1 Pubmed基本使用

         2.3.2 Pubmed高级搜索

     2.4 一级核酸数据库:GenBank

         2.4.1 原核生物核酸序列(1)

         2.4.1 原核生物核酸序列(2)

         2.4.2 真核生物核酸序列mRNA

         2.4.3 真核生物核酸序列DNA

     2.5 一级核酸数据库:基因组数据库

         2.5.1 基因组数据库Ensemble

         2.5.2 微生物宏基因组数据库JCVI

     2.6 二级核酸数据库


第二章:生物数据库 第二部分(2课时)

     2.7 一级蛋白质序列数据库:UniProtKB

         2.7.1 UniProt数据库介绍

         2.7.2 UniProtKB数据库注释解读(1)

         2.7.3 UniProtKB数据库注释解读(2)

     2.8 一级蛋白质结构数据库:PDB

         2.8.1 PDB数据库介绍

         2.8.2 PDB文件注释解读

         2.8.3 PDB文件3D展示:Jsmol

     2.9 二级蛋白质数据库

         2.9.1 蛋白质结构域家族数据库:Pfam

         2.9.2 蛋白质结构分类数据库:CATH

         2.9.3 蛋白质结构分类数据库:SCOP2

     2.10 专用数据库 

         2.10.1 京东基因与基因组百科全书:KEGG

         2.10.2 人类孟德尔遗传在线:OMIM


第三章:序列比较 第一部分(2课时) 

     3.1 认识序列

     3.2 序列相似性

     3.3 替换记分矩阵

          3.3.1 DNA序列的替换记分矩阵

          3.3.2 蛋白质序列的替换记分矩阵(1)

          3.3.2 蛋白质序列的替换记分矩阵(2)

          3.3.3 一致度和相似度的计算

     3.4 序列两两比较:打点法

          3.4.1 打点法的用途

          3.4.2 Dotlet在线打点工具:界面介绍

          3.4.3 Dotlet在线打点工具:应用实例

     3.5 序列两两比较:序列比对法

          3.5.1 什么是序列比对

          3.5.2 双序列全局比对

          3.5.3 双序列局部比对

     3.6 一致度和相似度


第三章:序列比较 第二部分(2课时) 

     3.7 在线双序列比对工具

          3.7.1 EMBL全局双序列比对工具

          3.7.2 Gap的类型及分值设置

          3.7.3 EMBL局部双序列比对工具

          3.7.4 其他在线双序列比对工具

     3.8 BLAST搜索

          3.8.1 BLAST是怎么工作的?

          3.8.2 BLAST的种类

          3.8.3 NCBI:BLASTp

          3.8.4 NCBI:PSI-BLAST

          3.8.5 NCBI:PHI-BLAST

          3.8.6 其他BLAST


第三章:序列比较 第三部分(2课时) 

     3.9 多序列比对介绍

          3.9.1 用途及算法

          3.9.2 注意事项

     3.10 在线多序列比对工具

          3.10.1 EMBL:Clustal Omega

          3.10.2 TCOFFEE:Expresso

 3.10.3 多序列比对的保存格式

     3.11 多序列比对的编辑和发布:Jalview

          3.11.1 Jalview的介绍和操作

          3.11.2 Jalview的编辑和发布

     3.12 寻找保守区域

          3.12.1 序列标识图:Weblogo

          3.12.2 序列基序:MEME

          3.12.3 PRINTS指纹图谱数据库


第四章:分子进化及系统发生(2课时) 

     4.1 进化的故事

          4.1.1 拉马克与用进废退

          4.1.2 达尔文与自然选择

     4.2 基本概念

          4.2.1 如何研究进化

          4.2.2 不同的同源

          4.2.3 “树状”还是“网状”

     4.3 系统发生树

          4.3.1 系统发生树的样子

          4.3 2 系统发生树的种类

     4.4 系统发生树的构建

     4.5 MEGA7构建NJ树

          4.5.1 建树前准备

          4.5.2 构建NJ树


第五章:蛋白质结构预测与分析 第一部分(2课时) 

     5.1 蛋白质的结构

     5.2 获取蛋白质二级结构 

         5.2.1 DSSP指认

         5.2.2 PDB获取

         5.2.3 软件预测

     5.3 获取蛋白质三级结构

     5.4 三级结构可视化软件VMD

         5.4.1 VMD:file & mouse

         5.4.2 VMD:representation

         5.4.3 VMD:multiple representations

         5.4.4 VMD:display & lable


第五章:蛋白质结构预测与分析 第二部分(2课时) 

     5.5 计算方法预测三级结构

        5.5.1 同源建模法:SWISS-MODEL

        5.5.2 穿线法:I-TASSER

        5.5.3 从头计算法:QUARK

        5.5.4 综合法:ROBETTA

        5.5.5 模型质量评估

     5.6 三级结构的比对

        5.6.1 SuperPose叠合和RMSD

        5.6.2 SPDBV和选择叠合

     5.7 蛋白质分子表面性质

        5.7.1 VMD创建PSF文件

        5.7.2 VMD&APBS计算表面电荷分布

        5.7.3 VMD显示表面电荷分布


第五章:蛋白质结构预测与分析 第三部分(2课时)

     5.8 获取蛋白质四级结构

     5.9 蛋白质-蛋白质分子对接

        5.9.1 常用对接软件ZDOCK

5.9.2 相互作用面分析PDBePISA

     5.10 蛋白质-小分子分子对接

        5.10.1 AutoDock安装

        5.10.2 AutoDock预处理

        5.10.3 AutoDock对接

     5.11 虚拟筛选与方向对接

        5.11.1 虚拟筛选介绍及ZINC数据库 

        5.11.2 AutoDock做虚拟筛选 

        5.11.3 反向对接

     5.12 分子动力学模拟


第六章:基因组学与蛋白质组学(2课时)


第七章:基本序列算法与统计基础(2课时)

     7.1 后缀树 

     7.2 最高分子序列问题 

     7.3 贝叶斯定理

     7.4 二元预测


第八章:数据挖掘(2课时) 

     8.1 什么是数据挖掘(1):概念介绍

     8.1 什么是数据挖掘(2):应用举例

     8.2 数据库系统 

     8.3 机器学习

         8.3.1 机器学习的主要任务、K次交叉检验

         8.3.2 机器学习的常见算法

     8.4 WEKA的使用

         8.4.1 WEKA中的术语

         8.4.2 WEKA的数据类型

         8.4.3 ARFF文件格式的转化

         8.4.4 WEKA的使用

         8.4.5 WEKA的应用实例


第九章:编程基础和网页制作(2课时)

     9.1 Linux系统 

     9.2 Perl语言

     9.3 网页制作HTML

参考资料

参考教材:陈铭主编,生物信息学(第二版),科学出版社,2015年2月。

常见问题

Q: 我是学生物的,计算机基础较弱,能学这门课吗?

A: 会用计算机就能!

Q: 我是学计算机的,生物基础较弱,能学这门课吗?

A: 知道蛋白质、DNA就能!

Q: 我是研究生,学这门课有用吗?

A: 太有用了!